m0_74230025 个人主页

@m0_74230025

m0_74230025

2025-01-12 23:11:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark常见的RDD算子-reduceByKey

用于对键值对（Key-Value）类型的 RDD 进行聚合操作。它的作用是将具有相同键（Key）的值（Value）合并在一起，通过一个指定的函数进行累加或计算。是一个高效的聚合操作，适用于对键值对进行归并计算。的主要作用是对 RDD 中的键值对按照键进行分组，并对每个键对应的值进行归并操作。：将所有节点的归并结果汇总到一起，最终得到每个键的最终结果。：在每个节点上，对本地的键值对进行归并操作，减少

#spark #大数据 #分布式

spark-Hadoop3与spark-without Hadoop的区别，下载安装错了怎么办？

如果你的环境中已经安装了 Hadoop，并且你希望使用现有的 Hadoop 集群资源，或者你想要更灵活地管理 Hadoop 和 Spark 的版本和配置，这个版本会更加适合。即使下载了带有 Hadoop 的 Spark 安装包，可以在环境变量中指定你原来 Hadoop 的地址，让 Spark 使用你已有的 Hadoop 环境。：如果你的环境中没有预先安装 Hadoop，或者你希望在一个独立的环境中

#spark #hadoop #大数据

spark集群部署-SPARK ON YARN

master角色由yarn的resourcemanager担任（集群资源管家）。worker角色由nodemanager担任（单机资源管家）。driver运行在yarn容器内或者提交任务的客户端过程内。干活的executor运行在yarn提供的容器内。

#spark #大数据 #分布式

类库与框架、在window（pycharm）搭建pyspark库，连接Linux。

类库：一堆别人写好的代码，可以直接导入使用，pandas框架：可以独立运行，软件产品，如sparkpandas用于：小规模数据集spark用于：大规模数据集。

#spark #大数据 #分布式

spark集群部署-SPARK ON YARN

#spark #大数据 #分布式

类库与框架、在window（pycharm）搭建pyspark库，连接Linux。

类库：一堆别人写好的代码，可以直接导入使用，pandas框架：可以独立运行，软件产品，如sparkpandas用于：小规模数据集spark用于：大规模数据集。

#spark #大数据 #分布式

到底了