
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前言:最近使用 R 开发数据分析系统,需要连接Oracle数据库获取数据,但是又不想为了拿几个数据而装一个Oracle,所以就想直接找个Oracle的odbc驱动,免去安装Oracle客户端的麻烦。以下对安装过程作个记录,希望能对大家有所帮助。正文:下载:首先,我们需要下载两个驱动:instantclient-odbc-win32-11.2.0.1.0 和 instantclient-bas
前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解
代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了)爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。环境、架构:开发语言:Python2.7开
代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更
前言:近半年没有写博客了,一打开Markdown竟然不知道从何开始。半年时间,要分享的东西比较多,今天第一篇,分享一个我整理后的 User-Agent 集合。对于爬虫开发者而言,我们经常修改浏览器的 User-Agent 伪装成移动端,从而像手机浏览器一样访问目标网站。爬虫程序带上不同的 User-Agent,可以从m端(甚至是wap端)爬取目标网站。具体方法见《爬虫福利:教你爬wap站》,下面
前言:人不能在同个地方栽两次跟头,那样的生活效率太低。所以我一直以来都保持着随手记录的习惯。现在把近半个月来遇到的关于R语言的错误分享一下,希望能帮助到一些朋友,同时也希望各位朋友把遇到的已解决的、未解决的错误提出来一下,完善彼此的知识点,谢谢!目录:连接数据库报错:negative length vectors are not allowed连接数据库报错:first argument i
(更多内容请见:R、ggplot2、shiny 汇总 )转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/47362619)
代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更
前言:几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代码见Github:LinkedinSpider。爬虫功能:输入一个公司名称,抓取相关员工的linkedin数据,字段见下方截图。 正文:先来说一下linkedin的限制:不登录的状态,不能进行搜索,但是可以查看某个用户的linkedin信息(不够全)。linkedin可以搜用户(最
前言:上一篇文章:《QQ空间爬虫分享(一天可抓取 400 万条数据)》Github地址:QQSpiderQ群讨论:很抱歉QQSpider这个爬虫过了这么久才作更新,同时也很感谢各位同学的肯定和支持!这次主要替换了程序里一些不可用的链接,对登录时的验证码作了处理,对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。使用说明:启动前配置:需要安装的软







