logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python爬虫自学宝典——如何爬取下一页信息

前文回顾,点击此处。爬虫爬取下一页信息很简答,无非就是获取下一页的连接url而已。首先,在提取完所有的response信息后,spider可以使用xpath找到页面中代表“下一页”的链接,然后使用request发送请求即可。首先,在浏览器中打开我的播客主页HTML代码中的下一页链接信息(在浏览器中,按F12),如下图:由上图只,下一翻页的xpath为‘//a[@class=“show_m...

python导入dns模块异常错误——ModuleNotFoundError: No module named 'dns'

首先,先自嘲一下,蠢材博主。今天用python链接MySQL,想搞点事情,但是导入模块这老错,让人很难受。具体错误如下:import mysql.connectorTraceback (most recent call last):File "<stdin>", line 1, in <module>File "C:\Users\14383\AppDa...

如何获取浏览器的user-agent

爬取网页信息需要获取header,即user-agent,以下是两种获取浏览器user-agent的方法方法一:以chrome为例,在地址栏输入about:version,即可出现如下信息。用户代理即user-agent。当然有的浏览器不支持使用about:version方法,例如IE浏览器。那么现在用到方法二即可。方法二:打开任意一个浏览器,鼠标右键点击网页, 查看网页的源代码。以...

python虚拟环境的好处以及安装激活

下文皆不是本人所作,只是将两个相对较好的部分拼接在了一起,以供大家参阅。(虚拟环境的安装,本人提供的是python3.4以上版本的,不需要的可以跳过)虚拟环境的原理一 虚拟环境 virtual environment它是一个虚拟化,从电脑独立开辟出来的环境。通俗的来讲,虚拟环境就是借助虚拟机docker来把一部分内容独立出来,我们把这部分独立出来的东西称作“容器”,在这个容器中,我们可以只安...

到底了