
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
相比于以前学习过的List、Set、Map这些数据结构,它更加高效、占用的空间也越少,但是它返回的结果是概率性的,是不确切的。传统关系型数据库,一般都选择使用B+树作为索引结构,而在大数据场景下,HBase、Kudu这些存储引擎选择的是LSM树。HBase中存储着非常海量数据,要判断某个ROWKEYS、或者某个列是否存在,使用布隆过滤器,可以快速获取某个数据是否存在。但如果某个key不存在,一定是
在工作中偶然发现了这样的一个开源项目,**PlantUML**!!!真的,强烈安利,程序员必备、计算机学生必备,只敲代码,真的是方便了许多,我在画时序图的时候,一个对象可能要画2-3分钟,从找标识到手工对齐,添加对象名,但是用代码只需要一行解决!
优化后的逻辑执行计划依然是逻辑的,需要将逻辑计划转化为Physical Plan。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言功能(例如Scala的模式匹配和quasiquotes)来构建可扩展的查询优化器。在第四章【案例:电影评分数据分析】中,运行应用程序代码,通过WEB UI界面监控可以看出,无论使用DSL还是SQL,构建Job的DAG图一样的,性能是一
在HBASE中,数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样,但将HBASE表看成是多个维度的Map结构更容易理解。
本系列是Linux操作系统的一些知识以及实践内容,Linux操作系统作为开发最常使用的操作系统,是必备的一门求职、提升技术。本文先介绍Linux操作系统,并安装一个Linux操作系统。
Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案