logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

免安装Oracle连接数据库(odbc驱动)

前言:最近使用 R 开发数据分析系统,需要连接Oracle数据库获取数据,但是又不想为了拿几个数据而装一个Oracle,所以就想直接找个Oracle的odbc驱动,免去安装Oracle客户端的麻烦。以下对安装过程作个记录,希望能对大家有所帮助。正文:下载:首先,我们需要下载两个驱动:instantclient-odbc-win32-11.2.0.1.0 和 instantclient-bas

#oracle#数据库
分布式多爬虫系统——架构设计

前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解

#分布式
新浪微博分布式爬虫分享

代码请移步GitHub:SinaSpider(上面有跳转链接,别再问我代码在哪里了)爬虫功能:此项目实现将单机的新浪微博爬虫(见《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫。Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿。环境、架构:开发语言:Python2.7开

#新浪微博#爬虫
QQ空间爬虫分享(一天可抓取 400 万条数据)

代码请移步GitHub:QQSpider爬虫功能:QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更

#爬虫
User-Agent 汇总

前言:近半年没有写博客了,一打开Markdown竟然不知道从何开始。半年时间,要分享的东西比较多,今天第一篇,分享一个我整理后的 User-Agent 集合。对于爬虫开发者而言,我们经常修改浏览器的 User-Agent 伪装成移动端,从而像手机浏览器一样访问目标网站。爬虫程序带上不同的 User-Agent,可以从m端(甚至是wap端)爬取目标网站。具体方法见《爬虫福利:教你爬wap站》,下面

#爬虫
R——颜色篇

(更多内容请见:R、ggplot2、shiny 汇总 )转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/47362619)

到底了