logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一图总结Hadoop、Hive和Spark的关系

Hadoop主要由两部分组成,分布式存储(HDFS)和分布式计算(MapReduce)。​Hive使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。Spark 将大数据集合抽象成一个 RDD 对象,然后提供了 transformation(转换)、action(动作)两大类算子函数,对RDD进行处理,并得到一个新的 RDD,然后继续后续迭代计算,

#hadoop#hive#spark
到底了