logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据之Hive】二十七、HQL之Fetch抓取、本地模式、并行执行、严格模式

Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如:select * from emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。

文章图片
#hive#大数据#hadoop
【大数据之Flume】五、Flume进阶之自定义拦截器 Interceptor

此时会用到 Flume 拓扑结构中的 Multiplexing多路复用结构,Multiplexing的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Interceptor,为不同类型的 event 的 Header 中的 key 赋予不同的值。使用 Flume 采集服务器本地日志,需要按照日志类型的不

文章图片
#大数据#flume
【大数据之Flume】七、Flume进阶之自定义Sink

(2)自定义MySink ,继承 AbstractSink 类并实现 Configurable 接口,并打包,将jar包放到/opt/module/flume-1.9.0/lib目录下。(3)在/opt/module/flume-1.9.0/job下创建文件夹group6,在该文件夹下创建配置文件netcat-flume-mysink.conf。process()//从 Channel 读取获取数

文章图片
#大数据#flume
【大数据之Hadoop】二十四、Yarn的tool接口

传入的参数的数组元素有3个,分别是-Dmapreduce.job.queuename=root.test、/inpu、 /output,而程序里的输入输出路径为传入数组的第一第二个元素,所以需要编写Yarn的Tool接口动态修改参数。(6)进到jar包的存放目录,向集群提交jar文件执行,此时为3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录,显示正常运行。(7)在wordco

文章图片
#hadoop#大数据#yarn +1
【大数据之Hadoop】十三、MapReduce之WritableComparable排序

MapReduce框架必须进行排序,MapTask和ReduceTask都会对key按字典顺序排序,是默认的行为(默认使用快速排序),有利于提高效率。MapTask把处理结果暂时放到环形缓冲区,当环形缓冲区的使用率达到一定阈值(80%)时,对其进行一次快速排序,然后将有序数据写到磁盘上。(1)部分排序:MapReduce根据输入的键进行排序,保证输出的每个文件内部的有序。如果磁盘上的文件数目达到一

文章图片
#hadoop#大数据#mapreduce
Exception in thread “main“ java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$

下载winutils,解压对应的hadoop版本,将bin目录下的hadoop.dll系统文件拷贝到C盘的C:\Windows\System32目录下。下载地址:https://github.com/kontext-tech/winutils。报错原因:本地的hadoop版本与lib文件中替换的编译hadoop.dll版本不对应。1、在项目中创建一个包名为org.apache.hadoop.io.

文章图片
#hadoop#java#apache
【大数据之Hadoop】二十七、生产调优-HDFS多目录

DataNode配置多个目录,每个目录存储的数据不一样(且数据不是副本),可以用于增加磁盘、硬盘,磁盘新增之后就会出现负载不均衡的问题。当硬盘空间不足时增加一块硬盘后,新加的硬盘是没有数据的,通过执行磁盘数据均衡命令使得磁盘负载均衡。在hdfs-site.xml中添加,每台服务器节点的磁盘不同,可以选择不分发。NameNode本地目录可以配置多个,每个目录存放内容相同,增加可靠性。关闭集群,删除三

文章图片
#hadoop#hdfs#大数据
【大数据之Hive】二十六、HQL之CBO优化、谓词下推、矢量化查询

CBO是指Cost based Optimizer,即基于计算成本的优化。在Hive中,计算成本模型考虑到了:数据的行数、CPU、本地IO、HDFS IO、网络IO等方面。Hive会计算同一SQL语句的不同执行计划的计算成本,并选出成本最低的执行计划。目前CBO在hive的MR引擎下主要用于join的优化,例如多表join的join顺序。1、示例SQL语句2、关闭CBO优化根据执行计划,三张表的j

文章图片
#hive#大数据#hadoop
【大数据之Hadoop】六、HDFS之NameNode、Secondary NameNode和DataNode的内部工作原理

(3)NameNode记录操作日志,更新滚动日志。(先记录日志再更改内存,如果先更改内存再记录,在更改内存后遇到断电,则不会记录此次更改的记录,导致内存丢失)(5)若一定的时间NameNode没有收到DataNode信息,则任务该节点不可用(即NameNode不允许客户端向DataNode读写数据)。(4)DataNode和NameNode有周期性(3s)的互通信息,确保DataNode还是活动状

文章图片
#hadoop#大数据#hdfs
【大数据之Hive】十六、Hive-HQL函数之窗口函数(开窗函数)

  先定义了窗口的大小(按行来算),然后对窗口内的行的数据进行计算,再将计算结果返回给改行。  窗口函数包括窗口和函数两部分,窗口用于定义计算范围,函数用于定义计算逻辑,窗口函数只会在原来的表上增加一列结果列,不改变原来的数据。函数:  绝大多数聚合函数都可以配合窗口使用,如max(),min(),sum(),count(),avg()等。窗口:  分为两种,一种是基于行的,一种是基于值的。  基

文章图片
#hive#大数据#hadoop
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择