logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

解决hbase和hdfs的hadoop版本不兼容问题

假设你的hbase和hdfs的hadoop版本不同,但是我们的业务是将hbase的数据写入hdfs。该如何解决呢? 我们的方法是动态加载jar包。    1.Hbase和Hdfs分别定义借口HbaseInterface和HdfsInterface。    2.分别封装hbase和hdfs的方法生成相关jar包HbaseOperation.jar和HdfsOperation.jar。

#hadoop#java#storm
Hadoop及子项目介绍

Hadoop是Apache的一个项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。 目前,整个Hadoop家族由以下几个子项目组成: Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。 Avro

#hadoop
流式计算系统分析

2011年度的Hadoop China大会刚刚落下帷幕,这次会议的一个热点议题就是数据流计算,在MapReduce计算模型风靡全球之后,Stream Processing将会是下一个研究热点,无论是在工业界还是学术界。本文从深层次对各种典型的数据流计算系统架构及其基于的设计理念进行剖析。背景与动机背景随着当今社会数据量的日益膨胀,普通服务器组成的计算集群用于处理各种数据应用。在工业领域

#storm
如何构建高效的storm计算模型

计算机制简介        Storm采用流式计算的模型,和shell类似让数据在一个个“管道”中进行处理。Spout负责从数据源拉取数据,相当于整个系统的生产者。Bolt负责消费数据并将tuple发送给下一个计算单元。Bolt可以接受多个spout和bolt的数据。每个spout,bolt可以设置并行度excuter相当于多进程,每个excuter可以设置多个task   shuff

#storm
现今实时流计算模型

1.引言近年来,一种新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流建模。这些应用的实例包括金融服务、网络监控、电信数据管理、Web应用、生产制造、传感检测等等。在这种数据流模型中,单独的数据单元可能是相关的元组(tuples),例如网络测量、呼叫记录、网页访问等产生的数据。但是,这些数据以大量、快速、时变(可能是不可预知)的数据流持

#storm
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel

摘要:Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。Mike Olson是Hadoop运动背后的主要推动者,但这还远远不够,目前Google内部使用的大数

到底了