logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据组件-Spark

Spark是一个基于内存计算的分布式框架,核心采用弹性分布式数据集(RDD)模型。其架构为主从模式,支持多种运行方式:Local本地调试模式、Standalone独立集群模式(含Client和Cluster两种任务提交方式)以及YARN集群模式。RDD具有五大核心特性:分区列表实现并行计算、计算函数封装处理逻辑、依赖关系实现容错和阶段划分、分区器控制数据分发、首选位置优化数据本地性。这些特性使RD

文章图片
#大数据#spark#分布式
到底了