• 欢迎来到本博客,希望可以y一起学习与分享

scrapy框架爬虫简单入门(八)–验证码识别与setting设置与单独setting设置

Python benz 3年前 (2018-10-15) 73次浏览 0个评论 扫描二维码
文章目录[隐藏]

验证码识别方法

验证码识别方法有以下三种方法:

  • 编码实现(tesseract-ocr)
  • 在线打码
  • 人工打码

编码实现(tesseract-ocr),是通过编码识别图像的文字,得到验证码,但是准确率低;在线打码,是有一个验证码识别平台,这个平台通过把验证码发给人数众多的兼职人员,通过人眼识别等到验证码,准确率高,效率高,但是要收费;人工打码,自己识别验证码,准确率高,效率低。
综合,推荐使用在线打码平台,在线打码平台有开发文档,研究一下,接入平台即可。

setting设置

关闭cookie

有的网站通过cookie来识别是否为爬虫,也有的网站爬取的时候需要cookie的验证。我们可以在settings.py中:COOKIES_ENABLED = False关闭cookie,爬虫就不会携带cookie。

限制爬虫速度

限制爬虫速度是依赖于自动限速(AutoThrottle)扩展,详情可以查阅scrapy文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/autothrottle.html(中文)

  • AUTOTHROTTLE_ENABLED
    默认: False启用AutoThrottle扩展。
  • AUTOTHROTTLE_START_DELAY
    默认: 5.0初始下载延迟(单位:秒)。
  • AUTOTHROTTLE_MAX_DELAY
    默认: 60.0在高延迟情况下最大的下载延迟(单位秒)。
  • AUTOTHROTTLE_DEBUG
    默认: False起用AutoThrottle调试(debug)模式,展示每个接收到的response。 您可以通过此来查看限速参数是如何实时被调整的。

这些参数,都可以在settings.py中设置。

单独的setting设置

有些spider爬虫的一些设置,与setting中的设置有些不同,需要单独设置,我们可以通过custom_settings = {单独的setting设置参数}来单独设置某个spider爬虫的设置参数。custom_settings是重写了父类的custom_settings来实现的。注意,写的位置:


文章 scrapy框架爬虫简单入门(八)–验证码识别与setting设置与单独setting设置 转载需要注明出处
喜欢 (0)

您必须 登录 才能发表评论!