• 欢迎来到本博客,希望可以y一起学习与分享

scrapy框架爬虫简单入门(七)-IP代理与IP池

Python benz 3年前 (2018-10-14) 79次浏览 0个评论 扫描二维码
文章目录[隐藏]

Downloader Middlewares单个ip代理

ip代理要写在Downloader Middlewares下载器里,对request进行修改就行,关键代码就一行:request.meta['proxy'] = 代理IP

IP代理池

爬取IP代理网站,生成IP代理池

西刺免费代理IP(www.xicidaili.com)有免费的代理IP,我们可以爬取上面的IP信息,存到本地作为IP代理池。

我们需要爬取的数据有:IP地址、端口、类型三个。
高匿:不会暴露你的真实IP地址。
非高匿:有可能会暴露你的真实IP地址。
所以,最好选择高匿。

编写爬虫代码

在项目下,新建一个名为tools的文件夹,在tools文件夹里新建crawl_xici_ip.py的文件,用来编写爬取ip代理的爬虫文件。

在middlewares.py中编写拦截器

最后在settings.py注册middlewares:

ip代理的开源库与工具

scrapy-proxies

项目地址:https://github.com/aivarsk/scrapy-proxies

scrapy-crawlera

项目地址:https://github.com/scrapy-plugins/scrapy-crawlera,功能强大,配置简单,但是,要收费。

Tor洋葱浏览器

会把我们的请求进行多次的转发,以达到隐藏真实IP的目的,比收费的项目还要稳定一些。


文章 scrapy框架爬虫简单入门(七)-IP代理与IP池 转载需要注明出处
喜欢 (0)

您必须 登录 才能发表评论!