简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
python爬取国家法律法规数据库
从列表进入内容,发现每条内容文件对应一个id,这个id是由列表页传过来的,从列表获取拼出内容的url,然后进行接口爬取内容的文件路径path,再下载文件,解析文件。涉及文件下载,word解析,得到带标签和不带标签的内容,雪花算法非自增id,数据入库去重。发现导航栏有不同分类,f12查看网络接口,发现每个分类对应一个参数。爬取的文件数据下载到文件夹中,其他数据存储到数据库中。
到底了