
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
爬虫(仅基于静态网页)
④服务器接收到请求后,会根据请求的路径和头信息,找到对应的资源(对于静态页面,就是直接读取那个HTML文件),然后组成一个HTTP响应报文,并通过之前建立的TCP连接发回给你的程序。这一段我们不是已经获得了网页的内容嘛,接下来使用lxml 库进行HTML解析和数据提取,你可以通过浏览器右键检查,很方便的获取网页元素的css选择器路径和xpath路径。我们爬虫获取的HTML内容,就包含在这个响应之中
到底了







