
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
图书馆学习连不上网-代理服务器问题的解决
代理服务器问题影响上网

大数据-Spark-关于Json数据格式的数据的处理与练习
本文主要联系了在Spark中怎么处理json数据

大数据 - Spark系列《十三》- spark调度流程(运行过程)
本文细致讲解了一下spark调度流程和job执行的关键步骤

大数据-Zookeeper 安装步骤(亲测保成功)
Zookeeper 本地安装步骤和集群一键启停

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置
本文介绍了两种重要的配置方式:Live Templates 和文件模板。Live Templates 是一种快速生成常用代码片段的方法,而文件模板则允许您定义新文件的初始代码结构。通过本文,您将学会如何配置这两种模板,从而加速您的开发流程。

大数据 - Spark系列《十一》- Spark累加器详解
累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据

大数据 - Spark系列《五》- Spark常用算子
本文主要介绍了spark常用的转换算子和行动算子,并提供了具体的代码实例进行练习

大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题
本文主要讲述了HDFS文件块大小及小文件问题

大数据-Hive练习-环比增长率、同比增长率、复合增长率
环比增长率是指两个相邻时段之间某种指标的增长率。通常来说,环比增长率是比较两个连续时间段内某项数据的增长量大小的。

华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)
华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)离线处理方案
