logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark快速大数据分析-RDD编程

一.RDD基础RDD(Resilient Distributed Dataset):弹性分布式数据集RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点。用户可以通过2中方法创建RDD:1)读取一个外部数据集sc.textFile("test.txt")2)在驱动器程序里分发驱动器程序中的对象集合(比如list和set)sc.pa

#大数据#spark
Spark快速大数据分析-Spark介绍(一)

一.spark是什么Spark是一个用来实现快速而通用的集群计算平台,一个围绕速度、易用性和复杂分析构建的大数据处理框架。可以理解spark是用来替代Hadoop中MapReduce而不是替代整个Hadoop,实际上在大部分应用中spark运行在Hadoop的HDFS文件系统当中。但是spark比MapReduce更高效。它可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够

#大数据#spark
到底了