本文主要內容:
很久之前寫了1篇關于援用的文章,當時寫的寥寥草草,很多原理都沒有說清楚。最近在翻閱Derick Rethans(home: http://derickrethans.nl/ Github: https://github.com/derickr)大牛之前做的報告時,發現了1篇講授PHP援用機制的文章,也就是這個PDF.文中從zval和符號表的角度講授了援用計數、援用傳參、援用返回、全局參數等的原理,洋洋灑灑,圖文并茂,甚是精彩,建議童鞋們有時間都讀讀原版,相信會有很多的收獲。
空話不多說,接著說今天的正題。
我們知道,很多語言都提供了援用的機制,援用可讓我們使用不同的名字(或符號)訪問一樣的內容。PHP手冊中對援用的定義是:"在PHP中援用意味著用不同的名字訪問同1個變量內容。這其實不像C的指針,替換的是,援用是符號表別名。",換句話說,援用實現了某種情勢的"綁定"。例如我們常常碰到的這類面試題,便是援用的典范:
拋開本題的輸出不談,我們今天就跟隨Derick Rethans先輩的腳步,1步1步去揭開援用的神秘面紗。
在開始援用的原理之前,我們有必要對文中反復出現的術語做個簡單的說明,其中最主要也最重要的便是: 1.符號表 2.zval.
1. 符號表
計算機語言是人與機器交換的工具,但不幸的是,我們賴以生存和引以為傲的高級語言卻沒法直接在計算機上履行,由于計算機只能理解某種情勢的機器語言。這意味著,高級語言必須要經過編譯(或解釋)進程才能被計算機理解和履行。在這其間,要經過詞法分析、語法分析、語義分析、中間代碼生成和優化等很多復雜的進程,而這些進程中,編譯程序可能要反復用到源程序中出現的標識符等信息(例如變量的類型檢查、語義分析階段的語義檢查),這些信息便是保存在不同的符號表中的。符號表保存了源程序中標識符的名字和屬性信息,這些信息可能包括:類型、存儲類型、作用域、存儲分配信息和其他1些額外信息等。為了高效的插入和查詢符號表項,很多編譯器的符號表都使用Hashtable來實現。我們可以簡單的理解為:符號表就是1個保存了符號名和該符號的各類屬性的hashtable或map。例如,對程序:
1個可能的符號表(并不是實際的符號表)是類似這樣的結構:
我們其實不去關注符號表的具體結構,只需要知道:每一個函數、類、命名空間等都有自己的獨立的符號表(與全局的符號表分開)。說到這里,突然想起來1件事情,最開始使用PHP編程的時候,在讀extract()函數的手冊時,對"從數組中將變量導入到當前的符號表"這句話的含義百思不得其解,更是對先輩們所說的"不建議使用extract($_POST)和extract($_GET)提取變量"的建議萬分苦惱。實際上,extract的濫用不但會有嚴重的安全性問題,而且會污染當前的符號表( active symbol table)。
那末active symbol table又是甚么東西呢?
我們知道,PHP代碼的履行進程中,幾近都是從全局作用域開始,順次掃描,順序履行。如果遇到函數調用,則進入該函數的內部履行,該函數履行終了以后會返回到調用程序繼續履行。這意味著,必須要有某種機制用于辨別不同階段所要使用的符號表,否則就會造成編譯和履行的錯亂。Active symbol table便是用于標志當前活動的符號表(這時候應當最少存在著全局的global symbol table和活動的active symbol table,通常情況下,active symbol table就是指global symbol table)。符號表其實不是1開始就建立好的,而是隨著編譯程序的掃描不斷添加和更新的。在進入函數調用時,zend(PHP的語言解釋引擎)會創建該函數的符號表,并將active symbol table指向該符號表。也就是說,在任意時刻使用的的符號表都應當是當前的active symbol table。
以上就是符號表的全部內容了,我們簡單抽離1下其中的關鍵內容:
更多的資料可以查看:
1. http://www.scs.stanford.edu/11wi-cs140/pintos/specs/sysv-abi-update.html/ch4.symtab.html
2. http://arantxa.ii.uam.es/~modonnel/Compilers/04_SymbolTablesI.pdf
2. Zval
在上1篇博客(PHP內核探索之變量(1)Zval)中,我們已對zval的結構和基本原理有了1些了解。對zval不了解的童鞋可以先看看。為了方便瀏覽,我們再次貼出zval的結構:
struct _zval_struct { zvalue_value value; /* value */ zend_uint refcount__gc; /* variable ref count */ zend_uchar type; /* active type */ zend_uchar is_ref__gc; /* if it is a ref variable */ }; typedef struct _zval_struct zval;
1. 援用計數
正如上節所言,zval是PHP變量底層的真正容器,為了節省空間,其實不是每一個變量都有自己獨立的zval容器,例如對賦值(assign-by-value)操作:$a = $b(假定$b,$a都不是援用型變量),Zend其實不會為$b變量開辟新的空間,而是將符號表中a符號和b符號指向同1個zval。只有在其中1個變量產生變化時,才會履行zval分離的操作。這被稱為COW(Copy-on-write)的機制,可以在1定程度上節省內存和提高效力。
為了實現上述機制,需要對zval的援用狀態做標記,zval的結構中,refcount__gc便是用于計數的,這個值記錄了有多少個變量指向該zval, 在上述賦值操作中,$a=$b ,會增加原始的$b的zval的refcount值。關于這1點,上次(PHP內核探索之變量(1)Zval)已做了詳細的解釋,這里不再贅述。
2. 函數傳參
在腳本履行的進程中,全局的符號表幾近是1直存在的,但除這個全局的global symbol table,實際上還會生成其他的symbol table:例如函數調用的進程中,Zend會創建該函數的內部symbol table,用于寄存函數內部變量的信息,而在函數調用結束后,會刪除該symbol table。我們接下來以1個簡單的函數調用為例,介紹1下在傳參的進程中,變量和zval的狀態變化,我們使用的測試腳本是:
我們來逐漸分析:
(1). $a = "before";
這會為$a變量開辟1個新的zval(refcount=1,is_ref=0),以下所示:
(2). 函數調用do_zval_test($a)
由于函數的調用,Zend會為do_zval_test這個函數創建單獨的符號表(其中包括該函數內部的符號s),同時,由于$s實際上是函數的形參,因此其實不會為$s創建新的zval,而是指向$a的zval。這時候,$a指向的zval的refcount應當為3(分別是$a,$s和函數調用堆棧):
a: (refcount=3, is_ref=0)='before func'
以下圖所示:
(3).函數內部履行$s = "change "
由于$s的值產生了改變,因此會履行zval分離,為s專門copy生成1個新的zval:
(4).函數返回 return $s ; $b = do_zval_test($a).
$b與$s同享zval(暫時),準備燒毀函數中的符號表:
(5). 燒毀函數中的符號表,回到Global環境中:
這里我們順便說1句,在你使用debug_zval_dump()等函數查看zval的refcount時,會令zval本身的refcount值加1,所以實際的refcount的值應當是打印出的refcount減1,以下所示:
結果是:
string(6) "string" refcount(2)
3. 援用初探
同上,我們還是直接上代碼,然后1步步分析(這個例子比較簡單,為了完全性,我們還是略微分析1下):
則變量與zval的對應關系以下圖所示:(因而可知,unset的作用僅僅是將變量從符號表中刪除,并減少對應zval的refcount值)
上圖中值得注意的最后1步,在unset($b)以后,zval的is_ref值又變成了0。
那如果是混合了援用(assign-by-reference)和普通賦值(assign-by-value)的腳本,又是甚么情況呢?
我們的測試腳本:
(1). 先普通賦值后援用賦值
具體的進程見下圖:
(2). 先援用賦值后普通賦值
具體進程見下圖:
4. 傳遞援用
一樣,向函數傳遞的參數也能夠以援用的情勢傳遞,這樣可以在函數內部修改變量的值。作為實例,我們仍使用2(函數傳參)中的腳本,只是參數改成援用的情勢:
這與上述函數傳參進程基本1致,不同的是,援用的傳遞使得$a的值產生了變化。而且,在函數調用結束以后 $a的is_ref恢復成0:
可以看出,與普通的值傳遞相比,援用傳遞的不同在于:
(1) 第3步 $s = "change";時,并沒有為$s新建1個zval,而是與$a指向同1個zval,這個zval的is_ref=1。
(2) 還是第3步。$s = "change";履行后,由于zval的is_ref=1,因此,間接的改變了$a的值
5. 援用返回
PHP支持的另外一個特性是援用返回。我們知道,在C/C++中,函數返回值時,實際上會生成1個值的副本,而在援用返回時,其實不會生成副本,這類援用返回的方式可以在1定程度上節省內存和提高效力。而在PHP中,情況其實不完全是這樣。那末,究竟甚么是援用返回呢?PHP手冊上是這么說的:"援用返回用在當想用函數找到援用應當被綁定在哪個變量上面時",是否是1頭霧水,完全不知所云?其實,英文手冊上是這樣描寫的"Returning by reference is useful when you want to use a function to find to which variable a reference should be bound"。提取文中的主干和關鍵點,我們可以得到這樣的信息:
(1). 援用返回是將援用綁定在1個變量上。
(2). 這個變量不是肯定的,而是通過函數得到的(否者我們就能夠使用普通的援用了)。
這其實也說明了援用返回的局限性:函數必須返回1個變量,而不能是1個表達式,否者就會出現類似下面的問題:
PHP Notice: Only variable references should be returned by reference in xxx(參看PHP手冊中的Note).
那末,援用返回時如何工作的呢?例如,對以下的例子:
Zend都做了哪些工作呢?我們1步步來看。
(1). $tree = array(1=>'one',2=>'two',3=>'three')
同之前1樣,這會在Global symbol table中添加tree這個symbol,并生成該變量的zval。同時,為數組$tree的每一個元素都生成相應的zval:
tree: (refcount=1, is_ref=0)=array ( 1 => (refcount=1, is_ref=0)='one', 2 => (refcount=1, is_ref=0)='two', 3 => (refcount=1, is_ref=0)='three' )
以下圖所示:
(2). find_node(3,&$tree)
由于函數調用,Zend會進入函數的內部,創建該函數的內部symbol table,同時,由于傳遞的參數是援用參數,因此zval的is_ref被標志為1,而refcount的值增加為3(分別是全局tree,內部tree和函數堆棧):
(3)$item = &$tree[$key];
由于item是$tree[$key]的援用(在本例的調用中,$key是3),因此更新$tree[$key]指向zval的is_ref和refcount值:
(4)return $item,并履行援用綁定:
(5)函數返回,燒毀局部符號表。
tree對應的zval的is_ref恢復了0,refcount=1,$tree[3]被綁定在了$node變量上,對該變量的任何改變都會間接更改$tree[3]:
(6) 更改$node的值,會反射到$tree的節點上,$node ='new':
Note:為了使用援用返回,必須在函數定義和函數調用的地方都顯式的使用&符號。
6. Global關鍵字
PHP中允許我們在函數內部使用Global關鍵字援用全局變量(不加global關鍵字時援用的是函數的局部變量),例如:
輸出為insideoutside
我們只知道global關鍵字建立了1個局部變量和全局變量的綁定,那末具體機制是甚么呢?
使用以下的腳本測試:
具體的分析進程為:
(1).$var = 'one';
同之前1樣,這會在全局的symbol table中添加var符號,并創建相應的zval:
(2).update_var('four')
由于直接傳遞的是string而不是變量,因此會創建1個zval,該zval的is_ref=0,ref_count=2(分別是形參$value和函數的堆棧),以下所示:
(3)global $var
global $var這句話,實際上會履行兩件事情:
(1).在函數內部的符號表中插入局部的var符號
(2).建立局部$var與全局變量$var之間的援用.
(4)unset($var);
這里要注意的是,unset只是刪除函數內部符號表中var符號,而不是刪除全局的。同時,更新原zval的refcount值和is_ref援用標志(援用解綁):
(5).global $var
同3,再次建立局部$var與全局的$var的援用:
(6)$var = $value;
更改$var對應的zval的值,由于援用的存在,全局的$var的值也隨之改變:
(7)函數返回,燒毀局部符號表(又回到最初的出發點,但,1切已大不1樣了):
據此,我們可以總結出global關鍵字的進程和特性:
現在,我們對援用已有了1個基本的認識。讓我們回到最初的問題:
這當中,究竟產生了甚么事情呢?
(1).$a = array(1,2,3);
這會在全局的symbol table中生成$a的zval并且為每一個元素也生成相應的zval:
(2). foreach($a as &$v) {$v *= $v;}
這里由因而援用綁定,所以相當于對數組中的元素履行:
$v = &$a[0]; $v = &$a[1]; $v = &$a[2];
履行進程以下:
我們發現,在這次的foreach履行終了以后,$v = &$a[2].
(3)第2次foreach循環
這次由于是普通的assign-by-value的賦值情勢,因此,類似與履行:
$v = $a[0]; $v = $a[1]; $v = $a[2];
別忘了$v現在是$a[2]的援用,因此,賦值的進程會間接更改$a[2]的值。
進程以下:
因此,輸出結果應當為144.
附:本文中的zval的調試方法。
如果要查看某1進程中zval的變化,最好的辦法是在該進程的前后均加上調試代碼。例如
配合畫圖,可以得到1個直觀的zval更新進程。
參考文獻:
由于寫作匆忙,文中難免會有毛病的地方,歡迎指出探討。