阿宁呀个人主页

@qq_18625571

阿宁呀

2022-11-01 23:04:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数

将一行数据拆分多行，即制表函数，接收一行数据，输出一行或多行数据。

#大数据 #hive #java

【大数据之Hive】六、Hive之metastore服务部署

metastore为Hive CLI或Hiveserver2提供元数据访问接口。

#hive #大数据 #hadoop

【大数据之Hive】二十五、HQL语法优化之小文件合并

小文件优化可以从两个方面解决，在Map端输入的小文件合并，在Reduce端输出的小文件合并。

#hive #大数据 #hadoop

【大数据之Hive】二十四、HQL语法优化之任务并行度

Hive的计算任务由MapReduce完成，并行度调整分为Map端和Reduce端。

#hive #大数据 #hadoop

【大数据之Hive】十九、Hive之文件格式和压缩

ORC是列式存储的文件格式，可以提高hive读写数据和处理数据的性能。左边为逻辑表。右边第一个为行式存储：取文件的一行数据存储到相邻的位置；第二个为列式存储：取文件的一列数据存储到相邻的位置。查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。列式存储查找一行数据时需要去每个字段中找对应的每个列的值。因为每个字段的数据聚集存储，在查询只需

#hive #大数据 #hadoop +1

【股票分析二】带你一步一步利用Tushare获取股票数据、进行清洗再利用机器学习聚类分析并结果可视化

tushare ID：441914我是用jupyter做的分析，先导入相关的库，记得设置tushare的token。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.collections import LineCollectionimport matplotlib.cm as c

#数据分析 #python #机器学习 +1

【大数据之Hive】三、Linux下安装MySQL8.0.33

解决方法：用yum直接下载。

#linux #大数据 #hive +1

【大数据之Hadoop】十二、MapReduce之Partition分区

（3）如果ReduceTask的数量==1，则不管MapTask端输出多少分区文件，最终结果都交给一个 ReduceTask，即使用默认分区，只产生一个结果文件。（2）如果 1 < ReduceTask的数量 < getPartition的结果数，则有部分分区数据无处存储，会抛出IO异常。（3）自定义Partition后，根据自定义的逻辑设置相应数量的ReduceTask。不设置时默认为1，则使用

#hadoop #大数据 #mapreduce

【大数据之Hadoop】二十三、Yarn命令行操作及生产环境下的配置

容量调度器，支持任务优先级的配置，在资源紧张时，优先级高的任务将优先获取资源。默认情况，Yarn将所有任务的优先级限制为0，若想使用任务的优先级功能，须开放该限制。（1）default队列占总内存的40%，最大资源容量占总资源60%，hive队列占总内存的60%，最大资源容量占总资源80%。（2）像双十一、618在资源紧张时期保证任务队列资源充足，给任务设置优先级，优先级高的先处理，即对任务进行降

#hadoop #yarn

【大数据之Hadoop】十、MapReduce中job提交流程源码分析

源码中：job提交三个信息（jar包，xml，切片信息），在本地不需要提交jar包，只有在集群上才需要提交。

#hadoop #大数据 #mapreduce

共 39 条

请选择