logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

hive - repair分区报错 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

在hive中有时会删除表(外部表)然后创建表,此时表元数据并不能和表信息映射,需要我们使用修复语句msck repair table 库名.表名;有些时候会报错,追踪了下原因,是hdfs上文件分区与hive分区不一致,我们强制忽略就可以。

文章图片
#hadoop#hive#apache
数据仓库-Spark为什么比MR快?

(2)Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD,在各个RDD的分区中,各自处理自己的中间结果即可。(2)对于Spark来说,每一个Job的结果都可以保存到内存中,供后续Job使用。(1)MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘,在Reduce阶段再从磁盘拉取数据。(1)对MR来说,每一个Job的结果都会落地到磁盘。(2)Spark的任务是以线程的方式运行在进

文章图片
#数据仓库#spark#mr
到底了