logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spring-boot 多模块的搭建

spring boot 多模块项目的搭建

kafka分布式爬虫系统-任务的发放

任务的发放任务发放应该是一个全局的总机,它主要和用户打交道,用来接收用户的请求,然后将用户的请求转换成机器能执行的任务。用户就不需要关心任务是如何发放的,只要将想要抓的网站或内容分配给总机即可。这里些问题需要考虑是:1.如何保证任务能有序的执行。2.保证断电了任务不丢失,来电了任务还能继续在原来的断点处执行。3.当用户如果发了几百万的任务,保证所有主机不崩溃。基于前面的3点,我想到如下解决方案..

#kafka#big data
kafka的分布式爬虫系统

前言    几乎停顿了1年之久,很久没写博客了,一方面是在院里做项目太忙,另一方面是自己也在摸索大数据领域的技术,终于自己搭起来了个基于kafka的分布式爬虫程序,可以抓网站的图像了,不多说,先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条,用了13个节点,具体的图像数据存储在hbase中。抓取的数据量超过2T,并20台机器同时抓取保持每天800w条数据增长,每天这么...

#kafka
到底了