logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入浅出数据仓库中SQL性能优化之Hive篇

摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,

#hive#mapreduce
Hive数据仓库相关操作

一、数据的导入1、使用Load语句执行数据的导入1.语法:其中(中括号中表示可加指令):LOCAL:表示指定的文件路径是否是本地的,没有则说明是HDFS上的文件路径。OVERWRITE:表示覆盖表中的已有数据。PARTITION ():如果是向分区表中导入数据的话需要指定分区。2.实例:(1).无分区情况:

#数据仓库#hive
深入浅出数据仓库中SQL性能优化之Hive篇

摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,

#hive#mapreduce
数据建模讲解和案例分析

第一部分:数据建模理论和逻辑一、从数据分析的定义开始维基百科对数据分析的定义如下:Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of discovering useful information, suggesting conclu...

mapreduce参数调优

废话不说直接来一张图如下: 从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??    Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;    Mapper数太小,并发度过小,Job执行时间过长,无...

#mapreduce#hadoop
Failing to produce to kafka brokers java.nio.BufferUnderflowException

storm程序在虚拟机的测试环境没有问题,部署上生产环境后出现如下问题:2017-04-17 09:43:14 k.p.a.DefaultEventHandler [INFO] Back off for 100 ms before retrying send. Remaining retries = 12017-04-17 09:43:14 k.c.ClientUtils$ [INF

#storm#kafka
关于mapreduce 几个参数的解释

一、mapreduce.map.java.opts、mapreduce.reduce.java.opts    以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这

Failing to produce to kafka brokers java.nio.BufferUnderflowException

storm程序在虚拟机的测试环境没有问题,部署上生产环境后出现如下问题:2017-04-17 09:43:14 k.p.a.DefaultEventHandler [INFO] Back off for 100 ms before retrying send. Remaining retries = 12017-04-17 09:43:14 k.c.ClientUtils$ [INF

#storm#kafka
loghub学习记录

公司前期的数据在Loghub上,现在因业务扩展需要将数据导到kafka上具体的流程:也可以用Kafkabolt向kafka特定的topic写数据,但是要注意需要用阿里云上loghub的storm消费loghub的例子,例子里面会有一个sampleBolt,这个bolt不能省略,这是因为在loghub-spout中,项目人员封装了tuple,所以必须要按项

#storm#阿里云
到底了