PHP为什么不支持多线程
为什么考虑到多线程呢?——–为了有效率的解决并发问题;
那怎么将多线程应用结合到PHP应用解决并发问题的过程中呢?
那就要回想一下“HTTP请求响应过程了”,对PHP而言,一个典型的HTTP事务:
- 客户端构造请求
- http守护进程监听到请求,php-fpm【针对php的fast-cgi】从在初始化时就启动的多个cgi解释器子进程中选择并连接到其中一个;此“幸运儿”解释器子进程负责处理请求,比如IO访问啦,数据库记录增删改查啦等等
- cgi解释子进程完成处理后将标准输出和错误信息从同一连接返回Web Server,Web Server将处理结果构造成响应体返送给客户端。
来,我们看看如上的发生过程,看看PHP代码层我们能做些什么?
事务的
- 第一步:客户端并发访问,这只是问题的根源;
- 第二步:服务器端的http守护进程监听请求,并从多进程模型的php-fpm选择子解释器进程处理请求,比如nginx服务器是要通过负载均衡,调整各种配置(nginx.conf, php-fpm.ini, php.ini)、这显然跟我们代码层也没什么关系;唯一可能有关系的地方就是子进程解释器解释代码逻辑的时候了,然而php-fpm是多进程单线程模型,被选中的Only One fast-cgi解释器子进程负责解释PHP代码逻辑,或者我们可以在“ Only One“的fast-cgi进程下搞些多线程做文章??;
- 第三步:Web Server将处理结果封装响应体,显然代码层在此也只能“望洋兴叹”了;
另一方面来讲,进程、线程本来就是底层操作系统的实现,比如常用于多线程的JAVA,它的解析过程【非解释过程】是跑在JVM上的,在设计之初就考虑到了多线程,它的“线程”实际上是一种封装抽象出来的概念,而PHP谁让它是靠解释器解释而非编译解析的呢?。
PHP多线程/多进程技术现状
1. curl_multi多线程请求URL
curl多用于跨域请求访问,当需要请求多个URL时,相较于for循环的curl_exec,我们可以使用curl_multi一类函数实现同时请求多个URL,类似多线程功能,据文档介绍:“Allows the processing of multiple cURL handles asynchronously(异步). tips: curl_multi_select—Wait for activity on any curl_multi connection。Blocks until there is activity on any of the curl_multi connections.
使用范例可参见:http://www.cnblogs.com/chunguang/p/5895160.html
代码实例片段如下:
2. pcntl_fork创建子进程/pthread 线程
据文档介绍:pcntl_fork()function creates a child process that differs from the parent process only in its PID and PPID. 另当其被用于Web服务环境时可能会带来意外的结果。
至于上文提到的被用于Web服务环境时可能会带来意外的结果,插播一则“广告”,首先介绍下什么是“僵尸进程”。
进程调用exit之后,其并非马上就消失掉,而是留下一个称为“僵尸进程”(Zombie)的数据结构。在Linux进程的5种状态【运行,中断,不可中断(收到信号不唤醒和不可运行, 进程必须等待直到有中断发生),停止,僵死】中,僵尸进程是非常特殊的一种,它已经放弃了几乎所 有内存空间,没有任何可执行代码,也不能被调度,仅仅在进程列表中保留一个位置,记载该进程的退出状态等信息供其他进程收集。
所以,进程退出后,系统会把该进程的状态变成Zombie,然后给上一定的时间等着父进程来收集其退出信息,因为可能父进程正忙于别的事情来不及收集,所以,使用Zombie状态表示进程退出了,正在等待父进程收集信息中。如果需要清除这样的进程,那么需要清除其父进程,或是等很长的时间后被内核清除。因为 Zombie的进程还占着个进程ID号呢,这样的进程如果很多的话,不利于系统的进程调度。
pcntl中多进程并发控制的用例可参见:http://blog.csdn.net/lgg201/article/details/5996444。
接着说上面的意外结果,手册上有这么一段话:
Process Control support in PHP implements the Unix style of process creation, program execution, signal handling and process termination. Process Control should not be enabled within a web server environment and unexpected results may happen if any Process Control functions are used within a web server environment.
比如,曾经有人尝试过采用php提供的pcntl_fork + 管道的方式实现并行数据拉取与同步【http://www.cnblogs.com/bourneli/archive/2012/07/06/2579804.html】,据说标准输出(浏览器)全都给到fork出的子进程,导致主进程无任何输出,浏览器无法接收来自主进程的数据?
个人猜想:既然子进程和父进程的执行依赖于操作系统调度,完全可以依赖进程间通信或者维护个父子进程关系表结构啊,如果并行拉取的数据没有限定次序关系的话,直接将输出送到主进程,主进程判断是否还有其他子进程未将输出结果送回,而决定是否echo直接结束脚本,当然如果有次序要求,在子进程创建时记录附加标志信息就可以重排序了呀。
3. multi-threading pthreads扩展
pecl扩展,安装需要ZTS aka thread safety (线程安全模式),且只能用在CLI命令行环境下,不能在web server 环境下使用。
使用实例和范例可参见:
http://blog.csdn.net/gavin_new/article/details/65444190
http://masnun.com/2013/12/15/multithreading-in-php-doing-it-right.html
https://www.sitepoint.com/parallel-programming-pthreads-php-fundamentals/
4. swoole_client的异步模式
swoole开源项目实际上是一个网络通信和异步io的引擎,一个基础库。swoole一般也是基于cli下的脚本编程。
http://rango.swoole.com/8
https://pecl.php.net/package/swoole
5. yield 与 socket_create
以同步方式书写的异步代码示例:
http://www.jb51.net/article/81245.htm
https://www.mullie.eu/parallel-processing-multi-tasking-php/
编程模型
一般来说,程序任务主要分为两种,一种是同步阻塞模型,另一种是异步非阻塞模型。
同步阻塞模型
如果有多个任务,就必须排队,前面一个任务完成,再执行后面一个任务,以此类推。
缺点:
- 这种模型严重依赖进程的数量解决问题
- 启用大量的进程会带来额外的进程调度消耗
异步非阻塞模型
现在各种高并发异步 I/O 的服务器程序都是基于 epoll 实现的。I/O 复用异步非阻塞模型程序使用经典的 Reactor 模型,Reactor 是反应堆的意思,它本身不处理任何数据的收发,只是监测一个 socket 句柄的事件变化。
Reactor 模型简介
- add:添加一个 socket 到 Reactor
- set:修改 socket 对应的事件,如可读可写
- del:从 Reactor 中移除
- callback:事件发生后回调指定的函数
Reactor 模型应用
- Nginx:多线程 Reactor 模型
- Swoole:多线程 Reactor 模型 + 多进程 Worker
基于PCNTL的PHP并发编程
PHP多进程看看是很nb的,可以把那些耗时的 但又必须执行的查询分成多个子进程查,
但是,PHP多进程不支持php-fpm和cgi模式,只能通过php-cli 模式,所以对于web页面的请求,多进程的梦想破灭。
适用场景: 定时任务执行,且互斥耗时的任务(数据的批量插入,批量更新,日志的批量操作)
安装
1.编译php源码时加入
--enable-pcntl
2.在现有的环境下新增加扩展
1 2 3 4 |
cd php-version/ext/pcntl phpize ./configure && make && make install echo "extension=pcntl.so" >> /etc/php.ini |
3.Mac下用brew安装 例如我本地是php7.1.5
brew install php71-pcntl
使用
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 |
header('content-type:text/html;charset=utf-8' ); // 必须加载扩展 if (!function_exists("pcntl_fork")) { die("pcntl extention is must !"); } pcntl_signal(SIGCHLD, SIG_IGN); //如果父进程不关心子进程什么时候结束,子进程结束后,内核会回收。 $pid_dir = __dir__."/pid_files"; for($i=0; $i<3; $i++){ $pid = pcntl_fork(); //创建子进程 if($pid == -1){ //错误处理:创建子进程失败时返回-1. var_dump("fork failed"); } if(!$pid){ //子进程得到的$pid为0, 所以这里是子进程执行的逻辑。 //子进程代码 $pid = posix_getpid(); $ppid = posix_getppid(); $r = rand(0,100); //随机数 touch("$pid_dir/fork_child_process_{$i}_{$ppid}_{$pid}_{$r}"); exit; }else{ //父进程会得到子进程号,所以这里是父进程执行的逻辑 //如果不需要阻塞进程,而又想得到子进程的退出状态,则可以注释掉pcntl_wait($status)语句,或写成: pcntl_wait($status,WNOHANG); //等待子进程中断,防止子进程成为僵尸进程。 } } $pid = posix_getpid(); $ppid = posix_getppid(); $r = rand(0,100); //随机数 touch("$pid_dir/fork_process_pid_{$ppid}_{$pid}_$r"); |
相关参数
pcntl_waitpid
等待或返回fork的子进程状态。
多进程的主进程创建了子进程,那主进程如何确认子进程的状态呢。 假如主进程需要根据子进程的状态做不同的处理呢, 这里的状态包括子进程被kill掉,或变成僵尸进程等。 pcntl_waitpid就可以获取子进程的状态码, 通过这个状态码, 就可知道子进程处于什么状态
他的用法:
int pcntl_waitpid ( int $pid , int &$status [, int $options = 0 ] )
返回的值可以是-1,0或者 >0的值, 如果是-1, 表示子进程出错, 如果>0表示子进程已经退出且值是退出的子进程pid,至于如何退出, 可以通过$status状态码反应。 那什么时候返回0呢, 只有在option 参数为 WNOHANG且子进程正在运行时0, 也就是说当设置了options=WNOHANG时, 如果子进程还没有退出, 此时pcntl_waitpid就会返回0
另外, 如果不设置这个参数为WNOHANG, pcntl_waitpid 就会阻塞运行, 直到子进程退出, 至于option的另外一个值WUNTRACED, 暂未理解, 不表
那么如何根据$status(状态码)判断进程是如何退出呢, 如下(参数都是$status)
pcntl_wifexited
这个函数可以根据$status 判断进程是否正常退出, 何为正常退出, 比如exit
pcntl_wexitstatus
这个函数仅在pcntl_wifexited 返回True(即正常退出)时有效, 且返回子进程退出的返回状态码, 这个返回状态码可以通过exit($s)的参数($s必须为整数时)定义
pcntl_wifsignaled
检查子进程状态码是否代表由于某个信号而中断, 比如是不是我们给他发送了term, int 等信号了
pcntl_wexitstatus
假如是发送信号而导致子进程中断, 那么这个信号是什么信号呢, 这个函数就是获取这个信号的
pcntl_wifstopped
仅当option选项为WUNTRACED时有效, 未理解, 不表
pcntl_wtermsig
同上
综合实例代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
$res = pcntl_waitpid($pid, $status, WNOHANG); //FileLog::log("pid is $pid; wait result is $res"); if($res == -1 || $res > 0){ if(!pcntl_wifexited($status)){ //进程非正常退出 FileLog::log("service stop unusally; pid is $pid"); }else{ //获取进程终端的退出状态码; $code = pcntl_wexitstatus($status); FileLog::log("service stop code: $code;pid is $pid "); } if(pcntl_wifsignaled($status)){ //不是通过接受信号中断 FileLog::log("service stop not by signal;pid is $pid "); }else{ $signal = pcntl_wtermsig($status); FileLog::log("service stop by signal $signal;pid is $pid"); } } |
上面的这个代码就通过根据pcntl_waitpid的返回结果和状态码对子进程因为不同原因中断做了不同的处理。
PHP性能优化利器:生成器 yield理解
如果是做Python或者其他语言的小伙伴,对于生成器应该不陌生。但很多PHP开发者或许都不知道生成器这个功能,可能是因为生成器是PHP 5.5.0才引入的功能,也可以是生成器作用不是很明显。但是,生成器功能的确非常有用。
优点
直接讲概念估计你听完还是一头雾水,所以我们先来说说优点,也许能勾起你的兴趣。那么生成器有哪些优点,如下:
- 生成器会对PHP应用的性能有非常大的影响
- PHP代码运行时节省大量的内存
- 比较适合计算大量的数据
那么,这些神奇的功能究竟是如何做到的?我们先来举个例子。
概念引入
1 2 3 4 5 6 7 |
function createRange($number){ $data = []; for($i=0;$i<$number;$i++){ $data[] = time(); } return $data; } |
首先,放下生成器概念的包袱,来看一个简单的PHP函数:
这是一个非常常见的PHP函数,我们在处理一些数组的时候经常会使用。这里的代码也非常简单:
- 我们创建一个函数。
- 函数内包含一个 for 循环,我们循环的把当前时间放到$data里面
- for循环执行完毕,把 $data 返回出去。
下面没完,我们继续。我们再写一个函数,把这个函数的返回值循环打印出来:
1 2 3 4 5 |
$result = createRange(10); // 这里调用上面我们创建的函数 foreach($result as $value){ sleep(1);//这里停顿1秒,我们后续有用 echo $value.'<br />'; } |
我们在浏览器里面看一下运行结果:
这里非常完美,没有任何问题。(当然 sleep(1) 效果你们看不出来)
思考一个问题
我们注意到,在调用函数 createRange 的时候给 $number 的传值是10,一个很小的数字。假设,现在传递一个值10000000(1000万)。
那么,在函数 createRange 里面,for循环就需要执行1000万次。且有1000万个值被放到 $data 里面,而$data数组在是被放在内存内。所以,在调用函数时候会占用大量内存。
这里,生成器就可以大显身手了。
创建生成器
我们直接修改代码,你们注意观察:
1 2 3 4 5 |
function createRange($number){ for($i=0;$i<$number;$i++){ yield time(); } } |
看下这段和刚刚很像的代码,我们删除了数组 $data ,而且也没有返回任何内容,而是在 time() 之前使用了一个关键字yield。
使用生成器
我们再运行一下第二段代码:
1 2 3 4 5 |
$result = createRange(10); // 这里调用上面我们创建的函数 foreach($result as $value){ sleep(1); echo $value.'<br />'; } |
我们奇迹般的发现了,输出的值和第一次没有使用生成器的不一样。这里的值(时间戳)中间间隔了1秒。
这里的间隔一秒其实就是 sleep(1) 造成的后果。但是为什么第一次没有间隔?那是因为:
- 未使用生成器时: createRange 函数内的 for 循环结果被很快放到 $data 中,并且立即返回。所以, foreach 循环的是一个固定的数组。
- 使用生成器时: createRange 的值不是一次性快速生成,而是依赖于 foreach 循环。 foreach 循环一次, for 执行一次。
到这里,你应该对生成器有点儿头绪。
深入理解生成器
代码剖析
下面我们来对于刚刚的代码进行剖析。
1 2 3 4 5 6 7 8 9 10 11 |
function createRange($number){ for($i=0;$i<$number;$i++){ yield time(); } } $result = createRange(10); // 这里调用上面我们创建的函数 foreach($result as $value){ sleep(1); echo $value.'<br />'; } |
我们来还原一下代码执行过程。
- 首先调用 createRange 函数,传入参数10,但是 for 值执行了一次然后停止了,并且告诉 foreach 第一次循环可以用的值。
- foreach 开始对 $result 循环,进来首先 sleep(1) ,然后开始使用 for 给的一个值执行输出。
- foreach 准备第二次循环,开始第二次循环之前,它向 for 循环又请求了一次。
- for 循环于是又执行了一次,将生成的时间戳告诉 foreach .
- foreach 拿到第二个值,并且输出。由于 foreach 中 sleep(1) ,所以, for 循环延迟了1秒生成当前时间
所以,整个代码执行中,始终只有一个记录值参与循环,内存中也只有一条信息。
无论开始传入的 $number 有多大,由于并不会立即生成所有结果集,所以内存始终是一条循环的值。
概念理解
到这里,你应该已经大概理解什么是生成器了。下面我们来说下生成器原理。
首先明确一个概念:生成器yield关键字不是返回值,他的专业术语叫产出值,只是生成一个值
那么代码中 foreach 循环的是什么?其实是PHP在使用生成器的时候,会返回一个 Generator 类的对象。 foreach 可以对该对象进行迭代,每一次迭代,PHP会通过 Generator 实例计算出下一次需要迭代的值。这样 foreach 就知道下一次需要迭代的值了。
而且,在运行中 for 循环执行后,会立即停止。等待 foreach 下次循环时候再次和 for 索要下次的值的时候,循环才会再执行一次,然后立即再次停止。直到不满足条件不执行结束。
实际开发应用
很多PHP开发者不了解生成器,其实主要是不了解应用领域。那么,生成器在实际开发中有哪些应用?
读取超大文件
PHP开发很多时候都要读取大文件,比如csv文件、text文件,或者一些日志文件。这些文件如果很大,比如5个G。这时,直接一次性把所有的内容读取到内存中计算不太现实。
这里生成器就可以派上用场啦。简单看个例子:读取text文件
我们创建一个text文本文档,并在其中输入几行文字,示范读取。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
<?php header("content-type:text/html;charset=utf-8"); function readTxt() { # code... $handle = fopen("./test.txt", 'rb'); while (feof($handle)===false) { # code... yield fgets($handle); } fclose($handle); } foreach (readTxt() as $key => $value) { # code... echo $value.'<br />'; } |
但是,背后的代码执行规则却一点儿也不一样。使用生成器读取文件,第一次读取了第一行,第二次读取了第二行,以此类推,每次被加载到内存中的文字只有一行,大大的减小了内存的使用。
这样,即使读取上G的文本也不用担心,完全可以像读取很小文件一样编写代码。
百万级别的访问量
yield生成器是php5.5之后出现的,yield提供了一种更容易的方法来实现简单的迭代对象,相比较定义类实现 Iterator 接口的方式,性能开销和复杂性大大降低。
yield生成器允许你 在 foreach 代码块中写代码来迭代一组数据而不需要在内存中创建一个数组。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
/** * 计算平方数列 * @param $start * @param $stop * @return Generator */ function squares($start, $stop) { if ($start < $stop) { for ($i = $start; $i <= $stop; $i++) { yield $i => $i * $i; } } else { for ($i = $start; $i >= $stop; $i--) { yield $i => $i * $i; //迭代生成数组: 键=》值 } } } foreach (squares(3, 15) as $n => $square) { echo $n . ‘squared is‘ . $square . ‘<br>‘; } 输出: 3 squared is 9 4 squared is 16 5 squared is 25 ... |
示例2:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
/对某一数组进行加权处理 $numbers = array(‘nike‘ => 200, ‘jordan‘ => 500, ‘adiads‘ => 800); //通常方法,如果是百万级别的访问量,这种方法会占用极大内存 function rand_weight($numbers) { $total = 0; foreach ($numbers as $number => $weight) { $total += $weight; $distribution[$number] = $total; } $rand = mt_rand(0, $total-1); foreach ($distribution as $num => $weight) { if ($rand < $weight) return $num; } } //改用yield生成器 function mt_rand_weight($numbers) { $total = 0; foreach ($numbers as $number => $weight) { $total += $weight; yield $number => $total; } } function mt_rand_generator($numbers) { $total = array_sum($numbers); $rand = mt_rand(0, $total -1); foreach (mt_rand_weight($numbers) as $num => $weight) { if ($rand < $weight) return $num; } } |
如果想更进一层了解yield,可以阅读这篇博文:PHP的生成器、yield和协程
使用示例:
转载:
闲言之PHP不支持多线程??
PHP 并发编程基础和实践
PHP多进程之pcntl扩展的使用详解
PHP中被忽略的性能优化利器:生成器