logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据 - Spark系列《十三》- spark调度流程(运行过程)

本文细致讲解了一下spark调度流程和job执行的关键步骤

文章图片
#大数据#spark#分布式
大数据-Zookeeper 安装步骤(亲测保成功)

Zookeeper 本地安装步骤和集群一键启停

文章图片
#linux#zookeeper#大数据
大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

本文介绍了两种重要的配置方式:Live Templates 和文件模板。Live Templates 是一种快速生成常用代码片段的方法,而文件模板则允许您定义新文件的初始代码结构。通过本文,您将学会如何配置这两种模板,从而加速您的开发流程。

文章图片
#大数据#spark#intellij-idea
大数据 - Spark系列《十一》- Spark累加器详解

​累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据

文章图片
#大数据#spark#分布式
大数据 - Spark系列《五》- Spark常用算子

本文主要介绍了spark常用的转换算子和行动算子,并提供了具体的代码实例进行练习

文章图片
#大数据#spark#分布式
大数据-Hive练习-环比增长率、同比增长率、复合增长率

环比增长率是指两个相邻时段之间某种指标的增长率。通常来说,环比增长率是比较两个连续时间段内某项数据的增长量大小的。

文章图片
#大数据#hive#hadoop
华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)

华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)离线处理方案

文章图片
#学习
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择