
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
数据采集框架 Flume
一、常用的数据采集工具(1)Chukwa:一个针对大型分布式系统的数据采集系统,构建在Hadoop之上,使用HDFS作为存储。(2)Flume:一个功能完备的分布式日志采集、聚合、传输系统,支持在日志系统中定制各类数据发送方,用于收集数据。(3)Scribe:facebook开发的日志收集系统,能够从各种日志源收集日志,存储到一个中央存储系统,以便于进行集中统计分析处理。(4)Kafka:一种高吞
分布式存储系统HDFS
3.1 HDFS简介Hadoop平台解决两大核心问题:分布式存储分布式处理HDFS就是解决海量数据分布式存储背景:大数据时代,对于海量的数据,单个计算机无法处理,只能借助整个集群来处理海量数据。文件系统结构(主从结构):主节点:承担起目录作用,比如元数据服务。从节点:实现数据存取的任务。实现目标:兼容廉价的硬件设备实现流数据读写(对于数据整个读写或者大部分读写,不会访问某一个子集,或一个块),满足
数据采集框架 kafka
一、简介(1)定义:Kafka是一种高吞吐量的分布式发布订阅消息系统,被设计成能高效处理大量实时数据,其特点是快速的、可拓展的、分布式的、分区的和可复制的(2)消息系统作用:削峰 :用于承接超出业务系统处理能力的请求,使业务平稳运行。这能够大量节约成本,比如某些秒杀活动,并不是针对峰值设计容量。缓冲 :在服务层和缓慢的落地层作为缓冲层存在,作用与削峰类似,但主要用于服务内数据流转。比如批量短信发送
到底了