简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170 master192.168.130.168 dd1192.168.130.162 dd2192.168.130.248 dd31.2、安装和配置JDK环境安装JDK1.6,并在/etc/profile设置好环境变量具体步骤:1.2.1、下载地址:http://ww
1、下载数据包wgethttp://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gzwgethttp://archive.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gzwgethttp://mirrors.ust
微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会 随着新设备,传感器和技术的出现,数据增长率在不断加速,根据...
背景本章介绍了关于流式计算的一些背景,描述了什么是samza,以及samza为什么会被构建出来。什么是消息?消息系统是实现近实时的异步计算的流行方式。当有消息产生时可以被放入一个消息队列(ActiveMQ,RabbitMQ)、发布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从这些系统中读取信息,并对其进行处理,或基于该消息的内容执行下一步操作。假
What is Samza?Apache Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送,采用 Apache Hadoop YARN 来提供容错,处理器隔离,安全性和资源管理。专用于实时数据的处理,非常像Twitter的流处理系统Storm。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中
技术交流群:59701880 深圳广州hadoop好友会微信公众号:后续博客的文档都会转到微信公众号中。一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有