logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python异步爬虫进阶——协程的用法

爬虫是 IO 密集型任务(输入input/输出output),比如我们使用 requests 库来爬取某个站点的话,发出一个请求之后,程序必须要等待网站返回响应之后才能接着运行(请求出去了得等它回来),而在等待响应的过程中,整个爬虫程序是一直在等待的,实际上没有做任何的事情。因此,有必要提高程序的运行效率,异步就是其中有效的一种方法。

文章图片
#python#爬虫#开发语言
DrissionPage终极神器

这三个软件都是用python代码打开浏览器去执行操作。Selenium:不支持异步操作,打开网站后变量可能和人操作时不一样,不防检测,易被封。Pyppepteer:绕过接口加密,直接访问获取网站信息,支持异步,有js脚本可以修改可能被检测的变量。DrissionPage:比Pyppepteer多功能,很多大网站Pyppepteer已经不行了。

文章图片
#python#爬虫
Scrapy框架——Downloader Middleware

新建了一个 Scrapy 项目,名为 scrapydownloadertest。pass修改 start_urls 为:[‘’]。随后将 parse() 方法添加一行日志输出,将 response 变量的 text 属性输出,这样我们便可以看到 Scrapy 发送的 Request 信息了。运行后,显示发送的 Request 信息q=0.9,*/*;q=0.8",},Scrapy 发送的 Requ

文章图片
#scrapy#中间件
到底了