《落神》个人主页

@zuo199606184810

《落神》

2023-08-24 09:25:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

爬虫---获取指定标签内的文本

学习爬虫主要是为了从网站上获取我们想要的数据，但是工作以后，我们爬去的数据是多种多样的，所以这就要求我们掌握多种查找数据的方式。今天以查找文本为例给大家介绍我常用的四种查找数据的方式。以在scrapy框架抓取百度贴吧为例，介绍四种抓取文本的方式。1. 获取最外层标签，遍历内部所有的子标签“/text()”，获取标签文本class XiaoshuoSpider(scrapy.Spide...

#python #html

User-Agent池

爬虫有些网站，会针对ua做反爬，是一种常见的发票措施，这就要求我们在爬虫的过程中，针对某些网站必须做ua池。ua池创建是比较简单的，直接将ua放在一个指定的管道中，然后可以随机取，也可以轮询取。但是有些网站ua反爬比较严重，所以这就要求我们在创建ua池的时候，将ua池尽可能大的构建，这样能防止我们的爬虫被检测到。构建大的ua池，需要的ua太多了，如果只是百度去搜的话，太麻烦，而且量也不多这里作者找

贴一个封装好的日志模块，可以直接放在项目中，日志存放的路径配置一下就可以#!/user/bin/even python# -*- coding:utf-8 -*-import osimport timeimport loggingimport inspectfrom logging.handlers import RotatingFileHandlerfrom sns_spider.config.

#python

到底了