php底层原理简介

前言

写了多年php,我们知道脚本语言很灵活,开发起来速度很快。但是否想过,它为什么会这样呢?到底在它在底层做了哪些工作?知其然要知其所以然,本文就来探讨一下php底层的一些实现机制。

我们知道,对于编程语言,我们可以将其分成编译型语言和解释型语言两种。

编译型语言
        对于C语言,C++,编译成机器码(二进制)来运行。
        Java语言,把.java 编译成.class, 称为bytecode(字节码),由jvm来运行。
解释型语言
        解释器解释执行。 典型的如: linux shell。由解释器逐行来执行命令。那么,php到底是属于哪种呢?
PHP是先编译后执行
        PHP稍有特殊,虽然是一个脚本语言,但不是靠解释器解释。而是zend虚拟机执行,屏蔽了操作系统的区别。PHP是一种适用于web开发的动态语言。具体点说,就是一个用C语言实现包含大量组件的软件框架。更狭义点看,可以把它认为是一个强大的UI框架。了解PHP底层实现的目的是什么?动态语言要像用好首先得了解它,内存管理、框架模型值得我们借鉴,通过扩展开发实现更多更强大的功能,优化我们程序的性能。
1. PHP的设计理念及特点
  • 多进程模型:由于PHP是多进程模型,不同请求间互不干涉,这样保证了一个请求挂掉不会对全盘服务造成影响,当然,随着时代发展,PHP也早已支持多线程模型。
  • 弱类型语言:和C/C++、Java、C#等语言不同,PHP是一门弱类型语言。一个变量的类型并不是一开始就确定不变,运行中才会确定并可能发生隐式或显式的类型转换,这种机制的灵活性在web开发中非常方便、高效,具体会在后面PHP变量中详述。
  • 引擎(Zend)+组件(ext)的模式降低内部耦合。
  • 中间层(sapi)隔绝web server和PHP。
  • 语法简单灵活,没有太多规范。缺点导致风格混杂,但再差的程序员也不会写出太离谱危害全局的程序。
2. PHP的四层体系
      PHP的核心架构如下图:
        从图上可以看出,PHP从下到上是一个4层体系:
  • Zend引擎:Zend整体用纯C实现,是PHP的内核部分,它将PHP代码翻译(词法、语法解析等一系列编译过程)为可执行opcode的处理并实现相应的处理方法、实现了基本的数据结构(如hashtable、oo)、内存分配及管理、提供了相应的api方法供外部调用,是一切的核心,所有的外围功能均围绕Zend实现。
  • Extensions:围绕着Zend引擎,extensions通过组件式的方式提供各种基础服务,我们常见的各种内置函数(如array系列)、标准库等都是通过extension来实现,用户也可以根据需要实现自己的extension以达到功能扩展、性能优化等目的(如贴吧正在使用的PHP中间层、富文本解析就是extension的典型应用)。
  • Sapi:Sapi全称是Server Application Programming Interface,也就是服务端应用编程接口,Sapi通过一系列钩子函数,使得PHP可以和外围交互数据,这是PHP非常优雅和成功的一个设计,通过sapi成功的将PHP本身和上层应用解耦隔离,PHP可以不再考虑如何针对不同应用进行兼容,而应用本身也可以针对自己的特点实现不同的处理方式。
  • 上层应用:这就是我们平时编写的PHP程序,通过不同的sapi方式得到各种各样的应用模式,如通过webserver实现web应用、在命令行下以脚本方式运行等等。
        如果PHP是一辆车,那么车的框架就是PHP本身,Zend是车的引擎(发动机),Ext下面的各种组件就是车的轮子,Sapi可以看做是公路,车可以跑在不同类型的公路上,而一次PHP程序的执行就是汽车跑在公路上。因此,我们需要:性能优异的引擎+合适的车轮+正确的跑道。
3. Sapi
        如前所述,Sapi通过通过一系列的接口,使得外部应用可以和PHP交换数据并可以根据不同应用特点实现特定的处理方法,我们常见的一些sapi有:
  • apache2handler:这是以apache作为webserver,采用mod_PHP模式运行时候的处理方式,也是现在应用最广泛的一种。
  • cgi:这是webserver和PHP直接的另一种交互方式,也就是大名鼎鼎的fastcgi协议,在最近今年fastcgi+PHP得到越来越多的应用,也是异步webserver所唯一支持的方式。
  • cli:命令行调用的应用模式
4. PHP的执行流程&opcode
        我们先来看看PHP代码的执行所经过的流程。
        从图上可以看到,PHP实现了一个典型的动态语言执行过程:拿到一段代码后,经过词法解析、语法解析等阶段后,源程序会被翻译成一个个指令(opcodes),然后ZEND虚拟机顺次执行这些指令完成操作。PHP本身是用C实现的,因此最终调用的也都是C的函数,实际上,我们可以把PHP看做是一个C开发的软件。
PHP的执行的核心是翻译出来的一条一条指令,也即opcode。Opcode是PHP程序执行的最基本单位。一个opcode由两个参数(op1,op2)、返回值和处理函数组成。PHP程序最终被翻译为一组opcode处理函数的顺序执行。
常见的几个处理函数:
1.变量的底层实现
        PHP底层是C语言来实现的,C语言是强类型,而PHP是弱类型语言,是如何实现的?
        PHP的源码包:
        最核心的是Zend,这是zend虚拟的实现。包括栈,数据类型,编译器等. 最重要的main,PHP的一些内建函数,最重要的函数都在该目录下.最大的一个目录 ext, PHP的扩展.
        PHP的大部分功能,都是以extenstion形式来完成的。如果自身开发了一个扩展,也放入ext目录下。
        弱类型语言变量的实现:
        PHP中的一个变量,zend虚拟机中,使用的是 _zval_struct 的结构体来描述,变量的值也是一个就结构体来描述.
        _zval_struct的结构体是由 四个字段/域 (可以理解成关联数组)
        zvalue_value value; /* 值 */
        PHP变量的值,存储这个字段中。具体存储的位置:
Zend对变量的表示
zend实现了 zval结构体
C语言中类型对应PHP中的数据类型:
例如:
变量类型的实现
zend_uchar type; /* 活动类型 */
可以根据上下文环境来强制转换。
例如:需要echo 的时候 就转换成 string
需要加减运算就 转换成 int
PHP 中有8中数据类型,为什么zval->value 联合体中,只有5中 ?
1: NULL,直接 zval->type = IS_NULL, 就可以表示,不必设置 value 的值。
2:BOOL, zval->type = IS_BOOL. 再设置 zval.value.lval = 1/0; (C语言中没有布尔值,都是通过1,0,来表示)
3: resource ,资源型,往往是服务器上打开一个接口,如果 文件读取接口。 zval->type = IS_RESOURCE, zval->type.lval = 服务器上打开的接口编号。
PHP中,字符串类型,长度是已经缓存的,调用strlen时,系统可以直接返回其长度,不需要计算。
//在PHP中字符串的长度,是直接体现在其结构体中,所以调用strlen(); 速度非常快,时间复杂度为0(1)
符号表
符号表symbol_table,变量的花名册
符号表是什么?
符号表示一张哈希表(哈希结构理解成关联数组)里面存储了变量名-> 变量zval结构体的地址
// 变量花名册
/** *
* 生成了3个结构体
* 同时,全局符号表,中多了三条记录
* a —> 0x123 —> 结构体 { 3 }
* b —> 0x21a —> 结构体 { 1.223 }
* c —> 0x1A0 —> 结构体 { hello }
*
*/
// 变量声明
// 第一:结构体生成
// 第二:符号表中多了记录,变量的花名册
// 第三:指向结构体
传值赋值
传值赋值发生了什么
在传值赋值时:
以:
$a = 3;
$b = $a;
为例:
并没有再次产生结构体,而是2个变量共用1个结构体
此时,2个变量,指向同1个结构体
refcount_gc 值为 2 (如果没有指针指引,会有垃圾回收机制清除)
写时复制
cow写时复制特性
// $a,$b 指向同一个结构体,那么,修改$b或$a,对方会不会受干扰 ?
没有干扰到对方。具有写时复制的特性
如果有一方修改,将会造成结构体的分裂
结构体一开始共用,到某一方要修改值时,才分裂。这种特性称为:COW 。Copy On Write。
引用赋值
引用赋值发生了什么?
当引用赋值时,双方共用一个结构体(is_ref_gc=1)
关系图例展示:
强制分裂
引用数组时的一些奇怪现象
数组不会比较细致的检查
// 先 引用 后 赋值
循环数组
循环数组时的怪现象
// 两个问题:
// 数组使用时,要慎用引用。
// foreach 使用后,不会把数组的内部指针重置, 使用数组时,不要假想内部指针指向数组头部. 也可以在foreach 之后 reset(); 指针。
符号表与作用域
当执行到函数时,会生成函数的“执行环境结构体”,包含函数名,参数,执行步骤,所在的类(如果是方法),以及为这个函数生成一个符号表。符号表统一放在栈上,并把active_symbol_table指向刚产生的符号表。
一个函数调用多次,会有多少个*op_array ?
一个函数产生 一个*op_array. 调用多次,会产生多个 环境结构体, 会依次入栈,然后顺序执行。
调用多少次,就会入栈多少次。不同的执行环境,靠 唯一的 *op_array 来执行。
函数什么时候调用, 函数编译后的 opcode 什么时候执行。
静态变量
静态变量的实现

常量
define函数的实现
define函数当然是 调用zend_register_constant声明的常量具体如下:Zend/zend_builtin_functions.c
// 源码:
常量就一个符号(哈希)表. 都使用一个符号表。所以全局有效。
常量的生成
对象定义常量
对象
对象的底层实现
通过new出来的对象,返回的是什么。是zend_object_value. 并不是真正的对象,而是对象的指针。
返回的 handle再次指向对象。
每次new一个对象,对象就存入一张hash表中。(形象的称之为对象池)
对象存储时的特点:
内存分层
内存管理与垃圾回收
PHP封装了对系统内存的请求不要直接使用malloc直接请求内存
PHP函数需要内存的时候,是通过emalloc,efree. emalloc,efree向 mm_heap索要空间。
zend 中底层都离不开hash表。PHP中的HashTable太强大。
PHP 底层 所有的变量都是 放在 zend_mm_heap 中。 然后通过 各自的hash表来指向或跟踪。
zend虚拟机的运行原理
  • PHP语法实现
Zend/zend_language_scanner.l Zend/zend_language_parser.y
  • OPcode编译
Zend/zend.compile.c
  • 执行引擎
Zend/zend_vm_* Zend/zend_execute.c
以apache模块运行时的流程

发表评论

邮箱地址不会被公开。 必填项已用*标注