PHP 程序员如何设计一个爬虫程序

A8U几年前接过一个项目，类似一个 PHP 爬虫程序，做一个微博舆情分析系统：要爬取新浪微博，用特定关键词搜索中的页面的微博内容。那是我第一次接触网络爬虫，根本没有思路，也不了解什么Scrapy等公开的爬虫开源项目，于是乎甩膀子自己开干。（当时微博的api不支持搜索）一个礼拜后，利用HttpClient简单实现了爬取一个网页，当时兴高采烈的以为核心问题已经解决，于是

小发猫

1219人浏览 · 2015-06-22 20:55:15

小发猫 · 2015-06-22 20:55:15 发布

A8U几年前接过一个项目，类似一个 PHP 爬虫程序，做一个微博舆情分析系统：要爬取新浪微博，用特定关键词搜索中的页面的微博内容。

那是我第一次接触网络爬虫，根本没有思路，也不了解什么Scrapy等公开的爬虫开源项目，于是乎甩膀子自己开干。（当时微博的api不支持搜索）

一个礼拜后，利用HttpClient简单实现了爬取一个网页，当时兴高采烈的以为核心问题已经解决，于是乎放慢了项目开发的速度；

之后的某一天，猛地发现，新浪微博搜索页面，不登录是根本无法读到的，当时已经快接近最后deadline，而我给后面预留的时间是用来写Web界面的，当时真的汗都下来了；之后的每一天一起床，巨大的压迫感逼着我全力寻找解决办法；

一开始，试着去模拟登录，后来发现，他的登录模块是用JavaScript通过Ajax来Post的，而且通过一大串复杂的javaScript代码生成了某个随机的key post上去。难不成我得去实现个JavaScript V8引擎？

再后来，突然灵光一现，想到用手机网页试试，结果手机网页没有用到Ajax，哈哈，高兴坏了，搞了3天终于搞定了，能够爬取任意关键词的搜索信息了，再后来，我把项目顺利delive了。

然后我把爬虫代码共享给了我的同事。

...

一个月后，他告诉我，某网站（cl）所有的bt种子都被他搞到了，瞬间无语。

原文链接： PHP 程序员如何设计一个爬虫程序

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S