logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署

一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170 master192.168.130.168 dd1192.168.130.162 dd2192.168.130.248 dd31.2、安装和配置JDK环境安装JDK1.6,并在/etc/profile设置好环境变量具体步骤:1.2.1、下载地址:http://ww

#hadoop#hbase#zookeeper
【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署

1、下载数据包wgethttp://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gzwgethttp://archive.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gzwgethttp://mirrors.ust

#hadoop#hbase#zookeeper
大数据生态圈之流式数据处理框架选择(Storm VS Kafka Streams VS Spark Streaming VS Flink VS Samza)

微信公众号(SZBigdata-Club):后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的,可以私下联系我,把招聘信息发给我我会在公众号中进行推送。 技术交流群:59701880 深圳广州hadoop好友会  随着新设备,传感器和技术的出现,数据增长率在不断加速,根据...

#flink
【Apache Samza 系列】实时流数据处理框架Samza中文教程 (二)-- 背景

背景本章介绍了关于流式计算的一些背景,描述了什么是samza,以及samza为什么会被构建出来。什么是消息?消息系统是实现近实时的异步计算的流行方式。当有消息产生时可以被放入一个消息队列(ActiveMQ,RabbitMQ)、发布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从这些系统中读取信息,并对其进行处理,或基于该消息的内容执行下一步操作。假

【Apache Samza 系列】实时流数据处理框架Samza中文教程 (一)-- 介绍

What is Samza?Apache Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送,采用 Apache Hadoop YARN 来提供容错,处理器隔离,安全性和资源管理。专用于实时数据的处理,非常像Twitter的流处理系统Storm。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项

【Apache KafKa系列之一】KafKa安装部署

kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建

技术交流群:59701880 深圳广州hadoop好友会微信公众号:后续博客的文档都会转到微信公众号中。一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有

到底了