logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据开发之sqoop数据迁移工具简介

概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等sqoop1与sqoop2架构对比sqoop1架构sqoop2架构工作机制将...

#sqoop#大数据
大数据开发之flume高可用的搭建

高可用架构图下面我们搭建一个高可用的Flume NG集群,架构图如下所示:图中,我们可以看出,Flume的存储可以支持多种,这里只列举了HDFS和Kafka(如:存储最新的一周日志,并给Storm系统提供实时日志流)。角色分配Flume的Agent和Collector分布如下表所示:名称 HOST角色Agent1node01Web Ser...

#大数据#flume
大数据开发之scala操作hbase的工具类

pom文件 核心依赖<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>1.2.1</v...

#scala#hbase
大数据开发之Druid数据查询

1 Druid数据查询1.1:查询组件介绍在介绍具体的查询之前,我们先来了解一下各种查询都会用到的基本组件,如Filter,Aggregator,Post-Aggregator,Query,Interval等,每种组件都包含很多的细节1.1.1 FilterFilter就是过滤器,在查询语句中就是一个JSON对象,用来对维度进行筛选和过滤,表示维度满足Filter的行是我们需要的数据,类似...

#大数据
大数据开发之druid介绍

1:druid介绍1.1 druid是什么Druid的母公司MetaMarket在2011年以前也是Hadoop的拥趸者,但是在高并发环境下,Hadoop并不能对数据可用性以及查询性能给出产品级别的保证,使得MetaMarket必须去寻找新的解决方案,当尝试使用了各种关系型数据库以及NoSQL产品后,他们觉得这些已有的工具都不能解决他们的“痛点”,所以决定在2011年开始研发自己的“轮子”...

大数据开发之druid介绍

1:druid介绍1.1 druid是什么Druid的母公司MetaMarket在2011年以前也是Hadoop的拥趸者,但是在高并发环境下,Hadoop并不能对数据可用性以及查询性能给出产品级别的保证,使得MetaMarket必须去寻找新的解决方案,当尝试使用了各种关系型数据库以及NoSQL产品后,他们觉得这些已有的工具都不能解决他们的“痛点”,所以决定在2011年开始研发自己的“轮子”...

大数据项目中如何实现架构选型和集群规划?

大数据项目中如何实现架构选型和集群规划?1.处理流程数据源关系型数据库表:订单,用户,地址。。。日志文件: 页面数据、埋点数据数据采集sqoop、kettle flume shell.数据存储:HDFS、Hive、HBASE数据清洗Mapreduce、hive、sparkCore数据处理(分析)Hive、MapReduce数据应用展示2.架构逻辑(1)...

#大数据
大数据分析工具之Kudu介绍

1. 什么是 Kudu导读Kudu的应用场景是什么?Kudu在大数据平台中的位置在哪?Kudu用什么样的设计, 才能满足其设计目标?Kudu中有什么集群角色?1.1. Kudu 的应用场景现代大数据的应用场景例如现在要做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点数据量大有一个非常重大的挑...

kafka的key为null时如何存储?

kafka的key为null时如何存储?我们都知道,kafka producer发送消息的时候,可以指定key,这个key的作用是为消息选择存储分区,key可以为空,当指定key且不为空的时候,kafka是根据key的hash值与分区数取模来决定数据存储到那个分区,那么当key为null的时候,kafka又是如何存储的呢?可能很多人都会说随机选择一个分区进行存储,但是具体是怎么实现的呢?虽然可..

#kafka
到底了