九茶个人主页

@Bone_ACE

九茶

2022-12-23 17:21:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

免安装Oracle连接数据库（odbc驱动）

前言：最近使用 R 开发数据分析系统，需要连接Oracle数据库获取数据，但是又不想为了拿几个数据而装一个Oracle，所以就想直接找个Oracle的odbc驱动，免去安装Oracle客户端的麻烦。以下对安装过程作个记录，希望能对大家有所帮助。正文：下载：首先，我们需要下载两个驱动：instantclient-odbc-win32-11.2.0.1.0 和 instantclient-bas

#oracle #数据库

分布式多爬虫系统——架构设计

前言：在爬虫的开发过程中，有些业务场景需要同时抓取几百个甚至上千个网站，此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点：代码复用，功能模块化。如果针对每个网站都写一个完整的爬虫，那其中必定包含了许多重复的工作，不仅开发效率不高，而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架，这最直观的需求就是方便扩展，新增一个待爬的目标网站，我只需要写少量必要的内容（如抓取规则、解

#分布式

新浪微博分布式爬虫分享

代码请移步GitHub：SinaSpider（上面有跳转链接，别再问我代码在哪里了）爬虫功能：此项目实现将单机的新浪微博爬虫（见《新浪微博爬虫分享（一天可抓取 1300 万条数据）》）重构成分布式爬虫。Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿。环境、架构：开发语言：Python2.7开

#新浪微博 #爬虫

QQ空间爬虫分享（一天可抓取 400 万条数据）

代码请移步GitHub：QQSpider爬虫功能：QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息，详细可见数据库说明。判重使用“内存位”判重，理论上亿数量级的QQ可瞬间判重，内存只占用400M+。爬虫速度可达到单机每天400万条数据以上（具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+，但在公司那边却只有六成的速度，普通家庭网络可能会更

#爬虫

User-Agent 汇总

前言：近半年没有写博客了，一打开Markdown竟然不知道从何开始。半年时间，要分享的东西比较多，今天第一篇，分享一个我整理后的 User-Agent 集合。对于爬虫开发者而言，我们经常修改浏览器的 User-Agent 伪装成移动端，从而像手机浏览器一样访问目标网站。爬虫程序带上不同的 User-Agent，可以从m端（甚至是wap端）爬取目标网站。具体方法见《爬虫福利：教你爬wap站》，下面

#爬虫

R——颜色篇

（更多内容请见：R、ggplot2、shiny 汇总）转载请注明出处，谢谢！（原文链接：http://blog.csdn.net/bone_ace/article/details/47362619）

到底了