pumpkin0_0 个人主页

@pumpkin_0

pumpkin0_0

2024-03-12 13:26:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

python爬取国家法律法规数据库

从列表进入内容，发现每条内容文件对应一个id，这个id是由列表页传过来的，从列表获取拼出内容的url，然后进行接口爬取内容的文件路径path，再下载文件，解析文件。涉及文件下载，word解析，得到带标签和不带标签的内容，雪花算法非自增id，数据入库去重。发现导航栏有不同分类，f12查看网络接口，发现每个分类对应一个参数。爬取的文件数据下载到文件夹中，其他数据存储到数据库中。

#爬虫 #pycharm #数据库 +1

python爬取国家标准文件

1.翻页爬取接口2.数据列表对页面爬取3.爬取接口获得行业类型4.文件下载页面需要图片验证，模拟浏览器完成验证。

#python #pycharm #爬虫 +2

python爬取国家法律法规数据库

#爬虫 #pycharm #数据库 +1

python爬取国家标准文件

1.翻页爬取接口2.数据列表对页面爬取3.爬取接口获得行业类型4.文件下载页面需要图片验证，模拟浏览器完成验证。

#python #pycharm #爬虫 +2

python爬取国家标准文件

1.翻页爬取接口2.数据列表对页面爬取3.爬取接口获得行业类型4.文件下载页面需要图片验证，模拟浏览器完成验证。

#python #pycharm #爬虫 +2

到底了