
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
传统关系型数据库大都使用B-Tree或其变体作为存储结构,能够进行高效查找。但保存在磁盘中时它也有一个明显的缺陷,那就是逻辑上相离很近但物理却可能相隔很远,这就可能造成大量的磁盘随机读写。因此对于关系型数据库来说随机读写比顺序读写慢很多,为了提升IO性能,我们需要一种能将随机操作变为顺序操作的机制,于是便有了本篇要讲的LSM树。LSM树能让我们进行顺序写磁盘,从而大幅提升写操作,作为代价的是牺牲了
红黑树是一种自平衡的二叉树,在插入和删除操作时可能会打破树的平衡,它会重新自处理以达到平衡状态。红黑树是复杂的,但它的操作有着良好的最坏情况运行时间,并且在实践中是高效的: 它可以在O(logn)时间内做查找,插入和删除,这里的n是树中元素的数目。
impala数据血缘与数据地图系列:1. 解析impala与hive的血缘日志2. 实时采集impala血缘日志推送到kafka-----------------------------------------实时采集impala血缘日志推送到kafka-----------------------------------------------------使用filebeat采集...
python应用GUI开发系列:python利用PyQt5和QTDesginer开发GUI应用(一)、环境准备及demopython利用PyQt5和QTDesginer开发GUI应用(二)、股票查询工具python利用PyQt5和QTDesginer开发GUI应用(三)、使用pyinstaller打包成exe文件-----------------------------------...
数据湖是将公司所有数据,外部数据,不知道要不要用的数据放在一起,通过一定的数据治理,让数据可以被发现,被理解,以用于交叉查询或机器学习的研究。数据湖不麻烦,管理数据湖中的数据最麻烦,一不小心就会变成数据沼泽。没人知道里面有什么数据,从哪来的,是干嘛的。目前市面上流行的三大开源数据湖方案分别为:DeltaLake, Hudi, Iceberg 。
加载HDFS文件数据到表:LOAD DATA INPATH "hdfs_source_path" OVERWRITE INTO TABLE tbl_nm;加载本地文件数据到表:LOAD DATA LOACL INPATH "loacl_source_path" OVERWRITE INTO TABLE tbl_nm;将数据导出至本地路径下:insert overwrite...
前面的文章我们简单介绍了什么是数据倾斜,今天我们来讲一下如何定位是否出现了数据倾斜,以及是在什么阶段出现的数据倾斜。

数据倾斜是指在并行计算模式下(map-reduce框架,数据被切分为N个片段,分发到不同的计算节点上,单独计算),部分节点处理的数据量远大于其他节点,造成该节点计算压力过大,从而导致少数节点的运行时长远远超过其他节点的平均运行时长,进而影响整体任务产出时效,造成任务延迟,这个现象就是数据倾斜。...
impala数据血缘与数据地图系列:----------------------------------------------------------------------------------------------Impala血缘:CDH官方文档impala数据血缘:https://docs.cloudera.com/documentation/enterprise...
impala数据血缘与数据地图系列:----------------------------------------------------------------------------------------------Impala血缘:CDH官方文档impala数据血缘:https://docs.cloudera.com/documentation/enterprise...