• 欢迎来到本博客,希望可以y一起学习与分享

php的高并发编程

PHP benz 2年前 (2019-05-31) 75次浏览 0个评论 扫描二维码
文章目录[隐藏]

PHP为什么不支持多线程

为什么考虑到多线程呢?——–为了有效率的解决并发问题;

那怎么将多线程应用结合到PHP应用解决并发问题的过程中呢?
那就要回想一下“HTTP请求响应过程了”,对PHP而言,一个典型的HTTP事务:

  1. 客户端构造请求
  2. http守护进程监听到请求,php-fpm【针对php的fast-cgi】从在初始化时就启动的多个cgi解释器子进程中选择并连接到其中一个;此“幸运儿”解释器子进程负责处理请求,比如IO访问啦,数据库记录增删改查啦等等
  3. cgi解释子进程完成处理后将标准输出和错误信息从同一连接返回Web Server,Web Server将处理结果构造成响应体返送给客户端。

来,我们看看如上的发生过程,看看PHP代码层我们能做些什么?

事务的

  1. 第一步:客户端并发访问,这只是问题的根源;
  2. 第二步:服务器端的http守护进程监听请求,并从多进程模型的php-fpm选择子解释器进程处理请求,比如nginx服务器是要通过负载均衡,调整各种配置(nginx.conf, php-fpm.ini, php.ini)、这显然跟我们代码层也没什么关系;唯一可能有关系的地方就是子进程解释器解释代码逻辑的时候了,然而php-fpm是多进程单线程模型,被选中的Only One fast-cgi解释器子进程负责解释PHP代码逻辑,或者我们可以在“ Only One“的fast-cgi进程下搞些多线程做文章??;
  3. 第三步:Web Server将处理结果封装响应体,显然代码层在此也只能“望洋兴叹”了;

另一方面来讲,进程、线程本来就是底层操作系统的实现,比如常用于多线程的JAVA,它的解析过程【非解释过程】是跑在JVM上的,在设计之初就考虑到了多线程,它的“线程”实际上是一种封装抽象出来的概念,而PHP谁让它是靠解释器解释而非编译解析的呢?。

PHP多线程/多进程技术现状

1. curl_multi多线程请求URL

curl多用于跨域请求访问,当需要请求多个URL时,相较于for循环的curl_exec,我们可以使用curl_multi一类函数实现同时请求多个URL,类似多线程功能,据文档介绍:“Allows the processing of multiple cURL handles asynchronously(异步).         tips: curl_multi_select—Wait for activity on any curl_multi connection。Blocks until there is activity on any of the curl_multi connections.

使用范例可参见:http://www.cnblogs.com/chunguang/p/5895160.html

代码实例片段如下:

2. pcntl_fork创建子进程/pthread 线程

据文档介绍:pcntl_fork()function creates a child process that differs from the parent process only in its PID and PPID. 另当其被用于Web服务环境时可能会带来意外的结果。

至于上文提到的被用于Web服务环境时可能会带来意外的结果,插播一则“广告”,首先介绍下什么是“僵尸进程”。

进程调用exit之后,其并非马上就消失掉,而是留下一个称为“僵尸进程”(Zombie)的数据结构。在Linux进程的5种状态【运行,中断,不可中断(收到信号不唤醒和不可运行, 进程必须等待直到有中断发生),停止,僵死】中,僵尸进程是非常特殊的一种,它已经放弃了几乎所 有内存空间,没有任何可执行代码,也不能被调度,仅仅在进程列表中保留一个位置,记载该进程的退出状态等信息供其他进程收集。

所以,进程退出后,系统会把该进程的状态变成Zombie,然后给上一定的时间等着父进程来收集其退出信息,因为可能父进程正忙于别的事情来不及收集,所以,使用Zombie状态表示进程退出了,正在等待父进程收集信息中。如果需要清除这样的进程,那么需要清除其父进程,或是等很长的时间后被内核清除。因为 Zombie的进程还占着个进程ID号呢,这样的进程如果很多的话,不利于系统的进程调度。

pcntl中多进程并发控制的用例可参见:http://blog.csdn.net/lgg201/article/details/5996444。

接着说上面的意外结果,手册上有这么一段话:

Process Control support in PHP implements the Unix style of process creation, program execution, signal handling and process termination. Process Control should not be enabled within a web server environment and unexpected results may happen if any Process Control functions are used within a web server environment.

比如,曾经有人尝试过采用php提供的pcntl_fork + 管道的方式实现并行数据拉取与同步【http://www.cnblogs.com/bourneli/archive/2012/07/06/2579804.html】,据说标准输出(浏览器)全都给到fork出的子进程,导致主进程无任何输出,浏览器无法接收来自主进程的数据?

个人猜想:既然子进程和父进程的执行依赖于操作系统调度,完全可以依赖进程间通信或者维护个父子进程关系表结构啊,如果并行拉取的数据没有限定次序关系的话,直接将输出送到主进程,主进程判断是否还有其他子进程未将输出结果送回,而决定是否echo直接结束脚本,当然如果有次序要求,在子进程创建时记录附加标志信息就可以重排序了呀。

3. multi-threading pthreads扩展

pecl扩展,安装需要ZTS aka thread safety (线程安全模式),且只能用在CLI命令行环境下,不能在web server 环境下使用。
使用实例和范例可参见:
http://blog.csdn.net/gavin_new/article/details/65444190
http://masnun.com/2013/12/15/multithreading-in-php-doing-it-right.html
https://www.sitepoint.com/parallel-programming-pthreads-php-fundamentals/

4. swoole_client的异步模式

swoole开源项目实际上是一个网络通信和异步io的引擎,一个基础库。swoole一般也是基于cli下的脚本编程。
http://rango.swoole.com/8
https://pecl.php.net/package/swoole

5. yield 与 socket_create

以同步方式书写的异步代码示例:

http://www.jb51.net/article/81245.htm

https://www.mullie.eu/parallel-processing-multi-tasking-php/

编程模型

一般来说,程序任务主要分为两种,一种是同步阻塞模型,另一种是异步非阻塞模型。

同步阻塞模型

如果有多个任务,就必须排队,前面一个任务完成,再执行后面一个任务,以此类推。

缺点:

  1. 这种模型严重依赖进程的数量解决问题
  2. 启用大量的进程会带来额外的进程调度消耗

异步非阻塞模型

现在各种高并发异步 I/O 的服务器程序都是基于 epoll 实现的。I/O 复用异步非阻塞模型程序使用经典的 Reactor 模型,Reactor 是反应堆的意思,它本身不处理任何数据的收发,只是监测一个 socket 句柄的事件变化。

Reactor 模型简介

  1. add:添加一个 socket 到 Reactor
  2. set:修改 socket 对应的事件,如可读可写
  3. del:从 Reactor 中移除
  4. callback:事件发生后回调指定的函数

Reactor 模型应用

  1. Nginx:多线程 Reactor 模型
  2. Swoole:多线程 Reactor 模型 + 多进程 Worker

基于PCNTL的PHP并发编程

PHP多进程看看是很nb的,可以把那些耗时的 但又必须执行的查询分成多个子进程查,

但是,PHP多进程不支持php-fpm和cgi模式,只能通过php-cli 模式,所以对于web页面的请求,多进程的梦想破灭。

适用场景:  定时任务执行,且互斥耗时的任务(数据的批量插入,批量更新,日志的批量操作)

安装

1.编译php源码时加入
--enable-pcntl
2.在现有的环境下新增加扩展

3.Mac下用brew安装 例如我本地是php7.1.5
brew install php71-pcntl

使用

相关参数

pcntl_waitpid
等待或返回fork的子进程状态。
多进程的主进程创建了子进程,那主进程如何确认子进程的状态呢。 假如主进程需要根据子进程的状态做不同的处理呢, 这里的状态包括子进程被kill掉,或变成僵尸进程等。 pcntl_waitpid就可以获取子进程的状态码, 通过这个状态码, 就可知道子进程处于什么状态
他的用法:

int pcntl_waitpid ( int $pid , int &$status [, int $options = 0 ] )
返回的值可以是-1,0或者 >0的值, 如果是-1, 表示子进程出错, 如果>0表示子进程已经退出且值是退出的子进程pid,至于如何退出, 可以通过$status状态码反应。 那什么时候返回0呢, 只有在option 参数为 WNOHANG且子进程正在运行时0, 也就是说当设置了options=WNOHANG时, 如果子进程还没有退出, 此时pcntl_waitpid就会返回0
另外, 如果不设置这个参数为WNOHANG, pcntl_waitpid 就会阻塞运行, 直到子进程退出, 至于option的另外一个值WUNTRACED, 暂未理解, 不表

那么如何根据$status(状态码)判断进程是如何退出呢, 如下(参数都是$status)

pcntl_wifexited
这个函数可以根据$status 判断进程是否正常退出, 何为正常退出, 比如exit

pcntl_wexitstatus
这个函数仅在pcntl_wifexited 返回True(即正常退出)时有效, 且返回子进程退出的返回状态码, 这个返回状态码可以通过exit($s)的参数($s必须为整数时)定义

pcntl_wifsignaled
检查子进程状态码是否代表由于某个信号而中断, 比如是不是我们给他发送了term, int 等信号了

pcntl_wexitstatus
假如是发送信号而导致子进程中断, 那么这个信号是什么信号呢, 这个函数就是获取这个信号的

pcntl_wifstopped
仅当option选项为WUNTRACED时有效, 未理解, 不表

pcntl_wtermsig
同上

综合实例代码:

上面的这个代码就通过根据pcntl_waitpid的返回结果和状态码对子进程因为不同原因中断做了不同的处理。

PHP性能优化利器:生成器 yield理解

如果是做Python或者其他语言的小伙伴,对于生成器应该不陌生。但很多PHP开发者或许都不知道生成器这个功能,可能是因为生成器是PHP 5.5.0才引入的功能,也可以是生成器作用不是很明显。但是,生成器功能的确非常有用。

优点
直接讲概念估计你听完还是一头雾水,所以我们先来说说优点,也许能勾起你的兴趣。那么生成器有哪些优点,如下:

  1. 生成器会对PHP应用的性能有非常大的影响
  2. PHP代码运行时节省大量的内存
  3. 比较适合计算大量的数据

那么,这些神奇的功能究竟是如何做到的?我们先来举个例子。

概念引入

首先,放下生成器概念的包袱,来看一个简单的PHP函数:

这是一个非常常见的PHP函数,我们在处理一些数组的时候经常会使用。这里的代码也非常简单:

  1. 我们创建一个函数。
  2. 函数内包含一个 for 循环,我们循环的把当前时间放到$data里面
  3. for循环执行完毕,把 $data 返回出去。

下面没完,我们继续。我们再写一个函数,把这个函数的返回值循环打印出来:

我们在浏览器里面看一下运行结果:

这里非常完美,没有任何问题。(当然 sleep(1) 效果你们看不出来)

思考一个问题
我们注意到,在调用函数 createRange 的时候给 $number 的传值是10,一个很小的数字。假设,现在传递一个值10000000(1000万)。

那么,在函数 createRange 里面,for循环就需要执行1000万次。且有1000万个值被放到 $data 里面,而$data数组在是被放在内存内。所以,在调用函数时候会占用大量内存。

这里,生成器就可以大显身手了。

创建生成器

我们直接修改代码,你们注意观察:

看下这段和刚刚很像的代码,我们删除了数组 $data ,而且也没有返回任何内容,而是在 time() 之前使用了一个关键字yield。

使用生成器

我们再运行一下第二段代码:

我们奇迹般的发现了,输出的值和第一次没有使用生成器的不一样。这里的值(时间戳)中间间隔了1秒。

这里的间隔一秒其实就是 sleep(1) 造成的后果。但是为什么第一次没有间隔?那是因为:

  1. 未使用生成器时: createRange 函数内的 for 循环结果被很快放到 $data 中,并且立即返回。所以, foreach 循环的是一个固定的数组。
  2. 使用生成器时: createRange 的值不是一次性快速生成,而是依赖于 foreach 循环。 foreach 循环一次, for 执行一次。

到这里,你应该对生成器有点儿头绪。

深入理解生成器

代码剖析
下面我们来对于刚刚的代码进行剖析。

我们来还原一下代码执行过程。

  1. 首先调用 createRange 函数,传入参数10,但是 for 值执行了一次然后停止了,并且告诉 foreach 第一次循环可以用的值。
  2. foreach 开始对 $result 循环,进来首先 sleep(1) ,然后开始使用 for 给的一个值执行输出。
  3. foreach 准备第二次循环,开始第二次循环之前,它向 for 循环又请求了一次。
  4. for 循环于是又执行了一次,将生成的时间戳告诉 foreach .
  5. foreach 拿到第二个值,并且输出。由于 foreach 中 sleep(1) ,所以, for 循环延迟了1秒生成当前时间

所以,整个代码执行中,始终只有一个记录值参与循环,内存中也只有一条信息。

无论开始传入的 $number 有多大,由于并不会立即生成所有结果集,所以内存始终是一条循环的值。

概念理解

到这里,你应该已经大概理解什么是生成器了。下面我们来说下生成器原理。

首先明确一个概念:生成器yield关键字不是返回值,他的专业术语叫产出值,只是生成一个值

那么代码中 foreach 循环的是什么?其实是PHP在使用生成器的时候,会返回一个 Generator 类的对象。 foreach 可以对该对象进行迭代,每一次迭代,PHP会通过 Generator 实例计算出下一次需要迭代的值。这样 foreach 就知道下一次需要迭代的值了。

而且,在运行中 for 循环执行后,会立即停止。等待 foreach 下次循环时候再次和 for 索要下次的值的时候,循环才会再执行一次,然后立即再次停止。直到不满足条件不执行结束。

实际开发应用

很多PHP开发者不了解生成器,其实主要是不了解应用领域。那么,生成器在实际开发中有哪些应用?

读取超大文件
PHP开发很多时候都要读取大文件,比如csv文件、text文件,或者一些日志文件。这些文件如果很大,比如5个G。这时,直接一次性把所有的内容读取到内存中计算不太现实。

这里生成器就可以派上用场啦。简单看个例子:读取text文件

我们创建一个text文本文档,并在其中输入几行文字,示范读取。


通过上图的输出结果我们可以看出代码完全正常。

但是,背后的代码执行规则却一点儿也不一样。使用生成器读取文件,第一次读取了第一行,第二次读取了第二行,以此类推,每次被加载到内存中的文字只有一行,大大的减小了内存的使用。

这样,即使读取上G的文本也不用担心,完全可以像读取很小文件一样编写代码。

百万级别的访问量

yield生成器是php5.5之后出现的,yield提供了一种更容易的方法来实现简单的迭代对象,相比较定义类实现 Iterator 接口的方式,性能开销和复杂性大大降低。

yield生成器允许你 在 foreach 代码块中写代码来迭代一组数据而不需要在内存中创建一个数组。

示例2:

如果想更进一层了解yield,可以阅读这篇博文:PHP的生成器、yield和协程

使用示例:

转载:

闲言之PHP不支持多线程??
PHP 并发编程基础和实践
PHP多进程之pcntl扩展的使用详解
PHP中被忽略的性能优化利器:生成器


文章 php的高并发编程 转载需要注明出处
喜欢 (0)

您必须 登录 才能发表评论!