
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
数据采集之用户行为日志采集
1.生产中的用户行为日志为前后端埋点产生,存在在日志服务器中, 在本项目中存储在hadoop102和hadoop103两台机器中。2.同时进行日志采集的两台flume也分别在102和103的机器上,在flume组件的组件方面两台机器是一样的,使用的是taildirSource(特点:支持断点续传)kafkachannel 进行缓冲和聚合另外还有一个ETL自定义拦截器负责数据清洗3.通过flume传
kafka中的offset理解
offset: 一个连续的用于定位被追加到分区的每一个消息的***,最大值为64位的long大小,19位数字字符长度。理解为类比Java中的数组,kafka里面存着消息的数组,offset类似于数组下标。Kafka与其它队列的一个区别是offset是在消费端进行维护,而不是服务端,因此多个消费端可以消费同一个队列里的数据,并自行控制消费位置。...
到底了







