logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

爬虫架构简述

项目情况最近做了一个爬虫系统,使用scrapy 作为核心,用kafka作队列,然后加上 java的消费者,还有其它周边服务,形成一个架构,这里进行一个简单的整理基础结构考虑到数据的扩展性和互联网的不确认性,考虑使用 nosql来存储大部分业务数据,同时为了更好的处理文字搜索, 于是决定使用elasticsearch + mysql的方式来处理.然后,我们考虑了底层服务,这涉及到数据获取,解...

scrapy管理多个spider,共用settings问题

背景说明这段时间需要用到scrapy来获取一些数据,其中涉及到多个任务,之间对scrapy不太熟悉,于是一个任务一个scrapy,感觉对复用方面很不友好,于是我们在想,怎么在一个scrapy project中搞多个spider, 这样对各方面的复用会好很多.系统使用了redis,和kafka,代理逻辑, 还有散落在很多代码里的log一般这种抽象,我会采用策略模式来做,同时兼顾单例,根据fl...

#scrapy#策略模式#设计模式 +1
kafka设置外网消费者

kafka 的默认配置比较简单,但想把其端口暴露给外网(指定端口),则有一些额外的注意情况kafka 的版本,0.8和0.10 的配置不同,这里以0.10.0.0 为主,没有用集群,一台机做测试zookeeper安装与启动kafka 的安装包里自带有zookeeper,不过这里还是自行下载.这里采用3.4.8版本下载及安装请参考http://zookeeper.ap...

#kafka
到底了