A8U几年前接过一个项目,类似一个 PHP 爬虫程序,做一个微博舆情分析系统:要爬取新浪微博,用特定关键词搜索中的页面的微博内容。

 
PHP 爬虫程序
 
那是我第一次接触网络爬虫,根本没有思路,也不了解什么Scrapy等公开的爬虫开源项目,于是乎甩膀子自己开干。(当时微博的api不支持搜索)
一个礼拜后,利用HttpClient简单实现了爬取一个网页,当时兴高采烈的以为核心问题已经解决,于是乎放慢了项目开发的速度;
 
之后的某一天,猛地发现,新浪微博搜索页面,不登录是根本无法读到的,当时已经快接近最后deadline,而我给后面预留的时间是用来写Web界面的,当时真的汗都下来了;之后的每一天一起床,巨大的压迫感逼着我全力寻找解决办法;
 
一开始,试着去模拟登录,后来发现,他的登录模块是用JavaScript通过Ajax来Post的,而且通过一大串复杂的javaScript代码生成了某个随机的key post上去。难不成我得去实现个JavaScript V8引擎?
再后来,突然灵光一现,想到用手机网页试试,结果手机网页没有用到Ajax,哈哈,高兴坏了,搞了3天终于搞定了,能够爬取任意关键词的搜索信息了,再后来,我把项目顺利delive了。
 
然后我把爬虫代码共享给了我的同事。
 
...
 
一个月后,他告诉我,某网站(cl)所有的bt种子都被他搞到了,瞬间无语。 

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐