Let's Go!

PHP的GC垃圾收集机制

上一篇 / 下一篇  2011-09-02 17:58:32 / 个人分类:经典转载

今天听了php的gc :

1. 256字节以下不会立刻回收变量空间
2. unset:断开符号的引用连接,并且计数-1
3. NULL:强制将计数清零
4. xdebug ---->进行调试,打印内存使用情况
php 5.3:
1)不会立刻回收,会在根缓冲区满后执行GC
2)能将内存泄露控制在一个阈值以下(与根缓冲区大小有关)。

 

另附三篇文章

从 PHP 代码分析 PHP 的 GC(垃圾回收) 机制
http://bbs.chinaunix.net/thread-1610024-1-1.html

浅谈PHP5中垃圾回收算法(Garbage Collection)的演化
http://www.cnblogs.com/leoo2sk/archive/2011/02/27/php-gc.html

PHP的GC垃圾收集机制
http://www.cnblogs.com/dkblog/archive/2010/06/04/1980694.html

 

详细内容:

从 PHP 代码分析 PHP 的 GC(垃圾回收) 机制
众所周知, PHP 引擎本身是用 C 写的,提到 C 不能不提的就是 GC(垃圾回收).通过PHP 手册我们了解到, PHP 引擎会自动进行 GC 动作.那么我们不禁要问,到底它是怎么回收的, & 引用操作是不是指针, unset()了一个变量时它是不是真的被回收了呢?这些看似手册有提及的问题,如果仔细分析会发现,远没有那么简单泛泛.也许有人会跳出来说:看 PHP源码不就知道了.是的,等你通读了 PHP 源码后这个问题肯定不在话下了,然本篇要仅从 PHP本身来分析这些看似平常却被忽视的小细节,当然了,其中难免水平所限,有所疏漏,热烈欢迎广大phper 来共同讨论.

首先咱先看到例子,最简单不过的执行流程了:
Example 1: gc.php
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

echo
$b."\n";

?>

不用说 % php -f gc.php 输出结果非常明了:
hy0kl% php -f gc.php
I am test.


好,下一个:
Example 2:
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

$b='I will change?';                                                           

echo
$a."\n";
echo
$b."\n";

?>
执行结果依然很明显:
hy0kl% php -f gc.php
I will change?
I will change?


君请看:
Example 3:
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;  

unset(
$a);

echo
$a."\n";
echo
$b."\n";
?>
是不是得想一下下呢?
hy0kl% php -f gc.php
Notice: Undefined variable: a in /usr/local/www/apache22/data/test/gc.php on line 8
I am test.

有点犯迷糊了吗?

君再看:
Example 4:
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

unset(
$b);                                                                       

echo
$a."\n";
echo
$b."\n";

?>
其实如果 Example 3 理解了,这个与之异曲同工.
hy0kl% php -f gc.php
I am test.
Notice: Undefined variable: b in /usr/local/www/apache22/data/test/gc.php on line 9


君且看:
Example 5:
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

$a=null;

echo
'$a = '.$a."\n";
echo
'$b = '.$b."\n";

?>
猛的第一感觉是什么样的?
hy0kl% php -f gc.php
$a =
$b =

没错,这就是输出结果,对 PHP GC 已有深入理解的 phper 不会觉得有什么奇怪,说实话,当我第一次运行这段代码时很意外,却让我对 PHP GC 有更深刻的理解了.那么下面与之同工的例子自然好理解了.

Example 6:
<?php                                                                           
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

$b=null;

echo
'$a = '.$a."\n";
echo
'$b = '.$b."\n";

?>

OK,如果上面的例子的结果对看官来说无任何细节可言,那您可关闭本窗口了,欢迎有空再来!

下面我们来详细分析 GC 与引用.
1. 所有例子中,创建了一个变量,这个过程通俗一点讲:是在内存中开辟了一块空间,在里面存放了一个字符串I am test.. PHP 内部有个符号表,用来记录各块内存引用计数,那么此时会将这块内存的引用计数加 1,并且用一个名为$a的标签(变量)指向这块内存,方便依标签名来操作内存.

2. 对变量$a进行&操作,我的理解是找到$a所指向的内存,并为$b建立同样的一引用指向,并将存放字符串I am test.的内存块在符号表中引用计数加 1.换言之,我们的脚本执行到这一行的时候,存放字符串I am test.的那块内存被引用了两次.这里要强调的是,&操作是建立了引用指向,而不是指针, PHP 没有指针的概念!同时有人提出说类似于 UNIX 的文件软链接.可以在一定程度上这么理解: 存放字符I am test.的那块内存是我们的一个真实的文件,而变量$a$b是针对真实文件建立的软链接,但它们指向的是同一个真实文件. So, 我们看到,在 Example 2  中给$b赋值的同时,$a的值也跟着变化了.与通过某一软链操作了文件类似.

3. 在 Example 3 与 4 中,进行了 unset() 操作.根据实际的执行结果,可以看出: unset() 只是断开这个变量对它原先指向的内存的引用,使变量本身成为没有定义过空引用,所在调用时发出了Notice,并且使那块内存在符号表中引用计数减 1,并没有影响到其他指向这块内存的变量.换言之,只有当一块内存在符号表中的引用计数为 0 时, PHP 引擎才会将这块内存回收.
PHP 手册
4.0.0                 unset()became an expression. (In PHP 3,         unset()would always return 1).
这意味着什么?
看看下面的代码与其结果:
<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

unset(
$a);
unset(
$a);
unset(
$a);

echo
'$a = '.$a."\n";
echo
'$b = '.$b."\n";

?>
hy0kl% php -f gc.php

Notice: Undefined variable: a in /usr/local/www/apache22/data/test/gc.php on line 10
$a =
$b = I am test.
第一次 unset() 的操作已经断开了指向,所以后继的操作不会对符号表的任何内存的引用记数造成影响了.

4. 通过 Example 5 & 6 可以明确无误得出: 赋值null操作是相当猛的,它会直接将变量所指向的内存在符号号中的引用计数置 0,那这块内存自然被引擎回收了,至于何时被再次利用不得而知,有可能马上被用作存储别的信息,也许再也没有使用过.但是无论如何,原来所有指向那块内存变量都将无法再操作被回收的内存了,任何试图调用它的变量都将返回null.

<?php
error_reporting
(E_ALL);
$a='I am test.';
$b= &$a;

$b=null;

echo
'$a = '.$a."\n";
echo
'$b = '.$b."\n";

if (
null===$a)
{                                                                                
echo
'$a is null.';     
} else
{
echo
'The type of $a is unknown.';     
}

?>
hy0kl% php -f gc.php
$a =
$b =
$a is null.


综上所述,充分说明了为什么我们在看开源产品源码的时候,常看到一些比较大的临时变量,或使用完不再调用的重用信息都会被集中或显示的赋值为null了.它相当于 UNIX 中直接将真实文件干掉了,所有指向它的软链接自然成了空链了.
之前在讨论到这些细节点时有很多想当然的念头,在实际的执行了测试代码后才发现: 哦,原来如此!
纸上得来终觉浅,绝知此事须躬行.

作者:hy0kl
永久链接:从 PHP 代码分析 PHP 的 GC(垃圾回收) 机制
Email/MSN/Gtalk:hy0kle@gmail.com
Time: 2009.11.07

 

 

浅谈PHP5中垃圾回收算法(Garbage Collection)的演化

前言

PHP是一门托管型语言,在PHP编程中程序员不需要手工处理内存资源的分配与释放(使用C编写PHP或Zend扩展除外),这就意味着PHP本身实现了垃圾回收机制(Garbage Collection)。现在如果去PHP官方网站(php.net)可以看到,目前PHP5的两个分支版本PHP5.2和PHP5.3是分别更新的,这是因为许多项目仍然使用5.2版本的PHP,而5.3版本对5.2并不是完全兼容。PHP5.3在PHP5.2的基础上做了诸多改进,其中垃圾回收算法就属于一个比较大的改变。本文将分别讨论PHP5.2和PHP5.3的垃圾回收机制,并讨论这种演化和改进对于程序员编写PHP的影响以及要注意的问题。

PHP变量及关联内存对象的内部表示

垃圾回收说到底是对变量及其所关联内存对象的操作,所以在讨论PHP的垃圾回收机制之前,先简要介绍PHP中变量及其内存对象的内部表示(其C源代码中的表示)。

PHP官方文档中将PHP中的变量划分为两类:标量类型和复杂类型。标量类型包括布尔型、整型、浮点型和字符串;复杂类型包括数组、对象和资源;还有一个NULL比较特殊,它不划分为任何类型,而是单独成为一类。

所有这些类型,在PHP内部统一用一个叫做zval的结构表示,在PHP源代码中这个结构名称为“_zval_struct”。zval的具体定义在PHP源代码的“Zend/zend.h”文件中,下面是相关代码的摘录。

01typedefunion_zvalue_value {
02    longlval;                 /* long value */
03    doubledval;               /* double value */
04    struct{
05        char*val;
06        intlen;
07    } str;
08    HashTable *ht;             /* hash table value */
09    zend_object_value obj;
10} zvalue_value;
11  
12struct_zval_struct {
13    /* Variable information */
14    zvalue_value value;    /* value */
15    zend_uint refcount__gc;
16    zend_uchar type;   /* active type */
17    zend_uchar is_ref__gc;
18};

其中联合体“_zvalue_value”用于表示PHP中所有变量的值,这里之所以使用union,是因为一个zval在一个时刻只能表示一种类型的变量。可以看到_zvalue_value中只有5个字段,但是PHP中算上NULL有8种数据类型,那么PHP内部是如何用5个字段表示8种类型呢?这算是PHP设计比较巧妙的一个地方,它通过复用字段达到了减少字段的目的。例如,在PHP内部布尔型、整型及资源(只要存储资源的标识符即可)都是通过lval字段存储的;dval用于存储浮点型;str存储字符串;ht存储数组(注意PHP中的数组其实是哈希表);而obj存储对象类型;如果所有字段全部置为0或NULL则表示PHP中的NULL,这样就达到了用5个字段存储8种类型的值。

而当前zval中的value(value的类型即是_zvalue_value)到底表示那种类型,则由“_zval_struct”中的type确定。_zval_struct即是zval在C语言中的具体实现,每个zval表示一个变量的内存对象。除了value和type,可以看到_zval_struct中还有两个字段refcount__gc和is_ref__gc,从其后缀就可以断定这两个家伙与垃圾回收有关。没错,PHP的垃圾回收全靠这俩字段了。其中refcount__gc表示当前有几个变量引用此zval,而is_ref__gc表示当前zval是否被按引用引用,这话听起来很拗口,这和PHP中zval的“Write-On-Copy”机制有关,由于这个话题不是本文重点,因此这里不再详述,读者只需记住refcount__gc这个字段的作用即可。

PHP5.2中的垃圾回收算法——Reference Counting

PHP5.2中使用的内存回收算法是大名鼎鼎的Reference Counting,这个算法中文翻译叫做“引用计数”,其思想非常直观和简洁:为每个内存对象分配一个计数器,当一个内存对象建立时计数器初始化为1(因此此时总是有一个变量引用此对象),以后每有一个新变量引用此内存对象,则计数器加1,而每当减少一个引用此内存对象的变量则计数器减1,当垃圾回收机制运作的时候,将所有计数器为0的内存对象销毁并回收其占用的内存。而PHP中内存对象就是zval,而计数器就是refcount__gc。

例如下面一段PHP代码演示了PHP5.2计数器的工作原理(计数器值通过xdebug得到):

1<?php
2  
3$val1= 100;//zval(val1).refcount_gc = 1;
4$val2=$val1;//zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2(因为是Write on copy,当前val2与val1共同引用一个zval)
5$val2= 200;//zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1(此处val2新建了一个zval)
6unset($val1);//zval(val1).refcount_gc = 0($val1引用的zval再也不可用,会被GC回收)
7  
8?>

Reference Counting简单直观,实现方便,但却存在一个致命的缺陷,就是容易造成内存泄露。很多朋友可能已经意识到了,如果存在循环引用,那么Reference Counting就可能导致内存泄露。例如下面的代码:

1<?php
2  
3$a=array();
4$a[] = &$a;
5unset($a);
6  
7?>

这段代码首先建立了数组a,然后让a的第一个元素按引用指向a,这时a的zval的refcount就变为2,然后我们销毁变量a,此时a最初指向的zval的refcount为1,但是我们再也没有办法对其进行操作,因为其形成了一个循环自引用,如下图所示:

image

其中灰色部分表示已经不复存在。由于a之前指向的zval的refcount为1(被其HashTable的第一个元素引用),这个zval就不会被GC销毁,这部分内存就泄露了。

这里特别要指出的是,PHP是通过符号表(Symbol Table)存储变量符号的,全局有一个符号表,而每个复杂类型如数组或对象有自己的符号表,因此上面代码中,a和a[0]是两个符号,但是a储存在全局符号表中,而a[0]储存在数组本身的符号表中,且这里a和a[0]引用同一个zval(当然符号a后来被销毁了)。希望读者朋友注意分清符号(Symbol)的zval的关系。

在PHP只用于做动态页面脚本时,这种泄露也许不是很要紧,因为动态页面脚本的生命周期很短,PHP会保证当脚本执行完毕后,释放其所有资源。但是PHP发展到目前已经不仅仅用作动态页面脚本这么简单,如果将PHP用在生命周期较长的场景中,例如自动化测试脚本或deamon进程,那么经过多次循环后积累下来的内存泄露可能就会很严重。这并不是我在耸人听闻,我曾经实习过的一个公司就通过PHP写的deamon进程来与数据存储服务器交互。

由于Reference Counting的这个缺陷,PHP5.3改进了垃圾回收算法。

PHP5.3中的垃圾回收算法——Concurrent Cycle Collection in Reference Counted Systems

PHP5.3的垃圾回收算法仍然以引用计数为基础,但是不再是使用简单计数作为回收准则,而是使用了一种同步回收算法,这个算法由IBM的工程师在论文Concurrent Cycle Collection in Reference Counted Systems中提出。

这个算法可谓相当复杂,从论文29页的数量我想大家也能看出来,所以我不打算(也没有能力)完整论述此算法,有兴趣的朋友可以阅读上面的提到的论文(强烈推荐,这篇论文非常精彩)。

我在这里,只能大体描述一下此算法的基本思想。

首先PHP会分配一个固定大小的“根缓冲区”,这个缓冲区用于存放固定数量的zval,这个数量默认是10,000,如果需要修改则需要修改源代码Zend/zend_gc.c中的常量GC_ROOT_BUFFER_MAX_ENTRIES然后重新编译。

由上文我们可以知道,一个zval如果有引用,要么被全局符号表中的符号引用,要么被其它表示复杂类型的zval中的符号引用。因此在zval中存在一些可能根(root)。这里我们暂且不讨论PHP是如何发现这些可能根的,这是个很复杂的问题,总之PHP有办法发现这些可能根zval并将它们投入根缓冲区。

当根缓冲区满额时,PHP就会执行垃圾回收,此回收算法如下:

1、对每个根缓冲区中的根zval按照深度优先遍历算法遍历所有能遍历到的zval,并将每个zval的refcount减1,同时为了避免对同一zval多次减1(因为可能不同的根能遍历到同一个zval),每次对某个zval减1后就对其标记为“已减”。

2、再次对每个缓冲区中的根zval深度优先遍历,如果某个zval的refcount不为0,则对其加1,否则保持其为0。

3、清空根缓冲区中的所有根(注意是把这些zval从缓冲区中清除而不是销毁它们),然后销毁所有refcount为0的zval,并收回其内存。

如果不能完全理解也没有关系,只需记住PHP5.3的垃圾回收算法有以下几点特性:

1、并不是每次refcount减少时都进入回收周期,只有根缓冲区满额后在开始垃圾回收。

2、可以解决循环引用问题。

3、可以总将内存泄露保持在一个阈值以下。

PHP5.2与PHP5.3垃圾回收算法的性能比较

由于我目前条件所限,我就不重新设计试验了,而是直接引用PHP Manual中的实验,关于两者的性能比较请参考PHP Manual中的相关章节:http://www.php.net/manual/en/features.gc.performance-considerations.php

首先是内存泄露试验,下面直接引用PHP Manual中的实验代码和试验结果图:

01<?php
02classFoo
03{
04    public$var='3.1415962654';
05}
06  
07$baseMemory= memory_get_usage();
08  
09for($i= 0;$i<= 100000;$i++ )
10{
11    $a=newFoo;
12    $a->self =$a;
13    if($i% 500 === 0 )
14    {
15        echosprintf('%8d: ',$i), memory_get_usage() -$baseMemory,"\n";
16    }
17}
18?>
PHP内存泄露试验

可以看到在可能引发累积性内存泄露的场景下,PHP5.2发生持续累积性内存泄露,而PHP5.3则总能将内存泄露控制在一个阈值以下(与根缓冲区大小有关)。

另外是关于性能方面的对比:

01<?php
02classFoo
03{
04    public$var='3.1415962654';
05}
06  
07for($i= 0;$i<= 1000000;$i++ )
08{
09    $a=newFoo;
10    $a->self =$a;
11}
12  
13echomemory_get_peak_usage(),"\n";
14?>
这个脚本执行1000000次循环,使得延迟时间足够进行对比。

然后使用CLI方式分别在打开内存回收和关闭内存回收的的情况下运行此脚本:

1timephp -dzend.enable_gc=0 -dmemory_limit=-1 -n example2.php
2# and
3timephp -dzend.enable_gc=1 -dmemory_limit=-1 -n example2.php
在我的机器环境下,运行时间分别为6.4s和7.2s,可以看到PHP5.3的垃圾回收机制会慢一些,但是影响并不大。

与垃圾回收算法相关的PHP配置

可以通过修改php.ini中的zend.enable_gc来打开或关闭PHP的垃圾回收机制,也可以通过调用gc_enable()或gc_disable()打开或关闭PHP的垃圾回收机制。在PHP5.3中即使关闭了垃圾回收机制,PHP仍然会记录可能根到根缓冲区,只是当根缓冲区满额时,PHP不会自动运行垃圾回收,当然,任何时候您都可以通过手工调用gc_collect_cycles()函数强制执行内存回收。

 

 

PHP的GC垃圾收集机制

每一种语言都有自己的自动垃圾回收机制,让程序员不必过分关心程序内存分配,但是在OOP中,有些对象需要显式的销毁;防止程序执行内存溢出。

一、PHP 垃圾回收机制(Garbage Collector 简称GC)

在PHP中,没有任何变量指向这个对象时,这个对象就成为垃圾。PHP会将其在内存中销毁;这是PHP 的GC垃圾处理机制,防止内存溢出。

当一个 PHP线程结束时,当前占用的所有内存空间都会被销毁,当前程序中所有对象同时被销毁。GC进程一般都跟着每起一个SESSION而开始运行的.gc目的是为了在session文件过期以后自动销毁删除这些文件.

二、__destruct /unset

__destruct() 析构函数,是在垃圾对象被回收时执行。

unset 销毁的是指向对象的变量,而不是这个对象。

三、 Session 与 GC

由于PHP的工作机制,它并没有一个daemon线程来定期的扫描Session 信息并判断其是否失效,当一个有效的请求发生时,PHP 会根据全局变量 session.gc_probability 和session.gc_divisor的值,来决定是否启用一个GC, 在默认情况下, session.gc_probability=1, session.gc_divisor =100 也就是说有1%的可能性启动GC(也就是说100个请求中只有一个gc会伴随100个中的某个请求而启动).

GC 的工作就是扫描所有的Session信息,用当前时间减去session最后修改的时间,同session.gc_maxlifetime参数进行比较,如果生存时间超过gc_maxlifetime(默认24分钟) ,就将该session删除。

但是,如果你Web服务器有多个站点,多个站点时,GC处理session可能会出现意想不到的结果,原因就是:GC在工作时,并不会区分不同站点的session.

那么这个时候怎么解决呢?
1. 修改session.save_path,或使用session_save_path() 让每个站点的session保存到一个专用目录,

2. 提供GC的启动率,自然,GC的启动率提高,系统的性能也会相应减低,不推荐。

3. 在代码中判断当前session的生存时间,利用session_destroy()删除.
 

TAG:

 

评分:0

我来说两句

Open Toolbar