logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据之Hadoop】十七、MapReduce之数据清洗ETL

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

文章图片
#大数据#hadoop#mapreduce +1
【大数据之Hadoop】十二、MapReduce之Partition分区

(3)如果ReduceTask的数量==1,则不管MapTask端输出多少分区文件,最终结果都交给一个 ReduceTask,即使用默认分区,只产生一个结果文件。(2)如果 1 < ReduceTask的数量 < getPartition的结果数,则有部分分区数据无处存储,会抛出IO异常。(3)自定义Partition后,根据自定义的逻辑设置相应数量的ReduceTask。不设置时默认为1,则使用

文章图片
#hadoop#大数据#mapreduce
【大数据之Hive】二十、Hive之调优相关配置及Explain查看执行计划

执行计划简单来说就是一个SQL语句最终翻译成多少个MapReduce,Map里做了什么,Reduce里做了什么。Explain显示的执行计划,由一系列Stage(整个执行计划的一个阶段,一条SQL语句会把整个阶段分为若干个执行计划)组成,Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。

文章图片
#大数据#hive#hadoop
【大数据之Hadoop】二十九、HDFS存储优化

纠删码和异构存储测试需要5台虚拟机。准备另外一套5台服务器集群。(1)克隆hadoop105为hadoop106,修改ip地址和hostname,然后重启。(2)关闭集群,删除所有服务器Hadoop的data和logs文件。(3)在hadoop102上修改xsync和jpsall文件,把hadoop105和hadoop106加上。xsync存储地址:/bin,在root下修改,然后后分发xsync

文章图片
#hadoop#hdfs#大数据
【大数据之Hadoop】二十八、生产调优-HDFS集群扩容及缩容

增加或缩减服务器,注意不允许白名单和黑名单同时出现同一个主机。

文章图片
#hadoop#大数据#hdfs
【大数据之Kafka】十二、Kafka之offset位移及漏消费和重复消费

依次启动CustomConsumerAutoOffset和CustomProducerCallback,观察CustomConsumerAutoOffset能不能接受到数据,能接受则说明自动提交offset功能是ok的。先提交offset后消费、设置offset为手动提交,当offset被提交时,数据还在内存中国没有落盘,此时刚好消费者线程被kill掉。虽然自动提交offset十分简单便利,但由于

文章图片
#大数据#kafka#linq
【大数据之Hive】二十七、HQL之Fetch抓取、本地模式、并行执行、严格模式

Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如:select * from emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。

文章图片
#hive#大数据#hadoop
【大数据之Hadoop】二十四、Yarn的tool接口

传入的参数的数组元素有3个,分别是-Dmapreduce.job.queuename=root.test、/inpu、 /output,而程序里的输入输出路径为传入数组的第一第二个元素,所以需要编写Yarn的Tool接口动态修改参数。(6)进到jar包的存放目录,向集群提交jar文件执行,此时为3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录,显示正常运行。(7)在wordco

文章图片
#hadoop#大数据#yarn +1
【大数据之Hadoop】十三、MapReduce之WritableComparable排序

MapReduce框架必须进行排序,MapTask和ReduceTask都会对key按字典顺序排序,是默认的行为(默认使用快速排序),有利于提高效率。MapTask把处理结果暂时放到环形缓冲区,当环形缓冲区的使用率达到一定阈值(80%)时,对其进行一次快速排序,然后将有序数据写到磁盘上。(1)部分排序:MapReduce根据输入的键进行排序,保证输出的每个文件内部的有序。如果磁盘上的文件数目达到一

文章图片
#hadoop#大数据#mapreduce
【大数据之Hive】二十六、HQL之CBO优化、谓词下推、矢量化查询

CBO是指Cost based Optimizer,即基于计算成本的优化。在Hive中,计算成本模型考虑到了:数据的行数、CPU、本地IO、HDFS IO、网络IO等方面。Hive会计算同一SQL语句的不同执行计划的计算成本,并选出成本最低的执行计划。目前CBO在hive的MR引擎下主要用于join的优化,例如多表join的join顺序。1、示例SQL语句2、关闭CBO优化根据执行计划,三张表的j

文章图片
#hive#大数据#hadoop
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择