geekingLi 个人主页

@m0_37773338

geekingLi

2023-02-13 12:43:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【Hive报错】Grouping sets aggregations (with rollups or cubes) are not allowed if aggregation function..

Grouping sets aggregations (with rollups or cubes) are not allowed if aggregation function parameters overlap with the aggregation functions columns如果聚合函数参数与聚合函数列重叠，则不允许分组集聚合（使用汇总或多维数据集）Grouping sets

大数据知识宝典（Spark篇之shuffle过程）

注：本文主要摘录于尚硅谷大数据的学习资料，仅作学习记录，请勿用于商业用途。Spark shuffle过程HashShuffle过程介绍Spark丰富了任务类型，有些任务之间数据流转不需要通过Shuffle，但是有些任务之间还是需要通过Shuffle来传递数据，比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的b

【数据分析】常用的数据分析思维和算法

数据分析思维：漏斗思维，分类思维，平衡思维，A/B test，金字塔原理

【Python】pip install 远程主机强迫关闭了一个现有的连接问题解决

在新的电脑上配置Python环境，pip安装第三方库时遇到了一些问题，记录一下。WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None))after connection broken by 'ProtocolError('Connection aborted.',Connectio

【Spark】RDD算子reduceByKey执行原理，以reduceByKey((a, b) =＞ a + b)为例

我们都知道reduceByKey是RDD中常用的聚合操作。那它内部的执行原理是怎么样的呢？>>data.txtjavapythonphppythongoscalajavaval lines = sc.textFile("data.txt")val pairs = lines.map(s => (s, 1))val counts = pairs.red...

到底了