爬虫练习项目--化妆品生产许可信息管理系统服务平台

1.确定url通过抓包工具可以发现，当我们刷新整个页面时，在抓包工具中并没有找到我们要爬取的数据包，由此确定，它们是ajax动态加载出来的。注意：XHR里面抓到的包都是用ajax动态加载出来的，它们的链接不能从它们所在的整个页面的链接中直接得到，在请求头中可以得到他们的链接分析出ajax意味着，我们需要在抓包工具中提取URL通过分析我们可以得出：从首页的ajax中可以得到所有公司的唯一ID值。在每

山河锦绣放眼好风光

5835人浏览 · 2021-02-20 23:20:16

山河锦绣放眼好风光 · 2021-02-20 23:20:16 发布

1.确定url

通过抓包工具可以发现，当我们刷新整个页面时，在抓包工具中并没有找到我们要爬取的数据包，由此确定，它们是ajax动态加载出来的。

注意：XHR里面抓到的包都是用ajax动态加载出来的，它们的链接不能从它们所在的整个页面的链接中直接得到，在请求头中可以得到他们的链接

分析出ajax意味着，我们需要在抓包工具中提取URL

通过分析我们可以得出：从首页的ajax中可以得到所有公司的唯一ID值。

在每个公司的AJax包中我们可以得出每个详情页面的相同部分。

1. http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=9be8485451d44b3a8eb659ab6d3ae9c2 #公司1
2. http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=1a7c3b68d8404db8b7048149367eeaf0 #公司2

得出结论，我们需要获取每个公司的唯一ID，然后拼接上每个链接的相同部分就可以得到每个公司的具体详情信息。

import requests
import json
# 思路：通过翻页的方式获取每一页所有公司的所有id，然后把这些id作为requests的参数和每一个固定的页面链接进行链接
# 易错点：id和固定链接之间不是简单的url的拼凑，而是id是请求的参数，是通过requests拼接到一起的。
id_list = []  # 获取每个企业的id
request_header ={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.74'
}
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
for page in range(1,20):
    page = str(page)
    data = {
	'on': 'true',
	'page': page,
	'pageSize': '15',
	'productName': '',
	'conditionType': '1',
	'applyname': '',
	'applysn': ''
    }

    response = requests.post(url=url,headers=request_header,data=data).json()#以json的格式返回response的内容（如果有的话）
    for dic in response['list']:#response是一个字典，list是一个键，而我们需要这个键对应的值，所以就有了`response['list']`,稍微复杂的是dic是一个数组，这个数组里包括了一个字典，
        id_list.append(dic['ID'])#dic是一个字典，我们同样用‘ID’这个键访问它对应的值，并把这个值添加到id_list[]里
#    print(response['list'][0])#response['list']是一个数组，里面只包含了一个字典。
#****************************************************************
#从这里开始整个程序分为两部分，上面是获取所有的id，下面是对所有的id信息进行请求，然后是保存。
all_data =[] #这个列表用来存放最终的所有公司的具体信息
post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
for  id in id_list:  #把id封装到字典当作作为参数以备调用
    data2 = {        #遍历所有的id
    'id':id
    }
    result = requests.post(url=post_url,headers=request_header,data=data2).json()
    all_data.append(result) #通过append方法把所有的请求结果上传到all_data[]中
    print(result) #直接输出请求返回的结果

file = open('./huanzhuanpin.json','w',encoding='utf-8')
json.dump(all_data,fp=file,ensure_ascii=False)

欢迎使用若依开源

快速构建 Web 应用程序

更多推荐

深入 Composer autoload

这几天看到 phphub 上面有人开始进坑怒看 laravel 源代码，于是我也凑个热闹来看下这个故事。众所周知 composer 是现代PHP 项目的基石，与古老的 pear 不同， composer 并不是一款专注于系统级别php 管理的包管理系统，而是基于项目的一个库管理系统。这就好比 npminstall -g 和 npminstall 的区别。而且最主要

RuoYi 若依

实体类（VO，DO，DTO）的划分

经常会接触到VO，DO，DTO的概念，本文从领域建模中的实体划分和项目中的实际应用情况两个角度，对这几个概念进行简析。得出的主要结论是：在项目应用中，VO对应于页面上需要显示的数据（表单），DO对应于数据库中存储的数据（数据表），DTO对应于除二者之外需要进行传递的数据。一、实体类百度百科中对于实体类的定义如下：实体类的主要职责是存储和管理系统内部的信息，它也可以有行为，甚至很复杂的行为，但这些行

RuoYi 若依

计算机课如何断开学生端,极域课堂管理系统怎么连接老师学生端连接问题解决方法...

现在的大学课堂都紧跟着时代的步伐，选择用电子教室代替传统的教室，电子教室的好处就是可以让坐在角落的同学也能清楚的看到老师的每一个操作，除此之外还可以电子举手，提交作业获得老师的及时反馈，学习效率倍增。如果你发现自己的电脑出现连接不上电脑的情况的，来看看小编是怎么解决的把！类别：教育管理大小：16.38M 语言：简体中文评分：61、首先，正常的学生机器是开机就会自动的连接老师端的，如果...