一直在使用hive做分布式大数据查询工作,越来越发现做为一个离线查询数据库来说,这样的效率真的是让人抓狂啊。网上说spark的性能是非常优越的,所以做了个环境安装了个,在centos的虚拟机上跑一下,果然性能非常的好,这个真的是令人惊喜的,在大数据的今天,人们需要大数据,又需要高效的查询效率,spark真的满足了这个需求,希望spark越来越好,spark支持hive的sql语法,这样对于关系型数据库的使用者绝对是个福利。我取一个6000万的表的count,大概需要的时间是10分钟,如果是随机取top的话,更是秒查,非常的棒。发两个截图,mark一下。



取count的截图我就不展示了,要不还得等10分钟。但是spark做随机查询,效果真是不要不要的了。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐