csdnGuoYuying 个人主页

@CSDNGuoYuying

csdnGuoYuying

2023-01-12 10:43:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【HBase高级】6. HBase数据结构（下）——LSM树数据结构、布隆过滤器、StoreFiles（HFile）结构

相比于以前学习过的List、Set、Map这些数据结构，它更加高效、占用的空间也越少，但是它返回的结果是概率性的，是不确切的。传统关系型数据库，一般都选择使用B+树作为索引结构，而在大数据场景下，HBase、Kudu这些存储引擎选择的是LSM树。HBase中存储着非常海量数据，要判断某个ROWKEYS、或者某个列是否存在，使用布隆过滤器，可以快速获取某个数据是否存在。但如果某个key不存在，一定是

#hbase #数据结构 #数据库 +2

【程序员高效率工具】PlantUML —— 使用代码快速绘制时序图、思维导图

在工作中偶然发现了这样的一个开源项目，**PlantUML**！！！真的，强烈安利，程序员必备、计算机学生必备，只敲代码，真的是方便了许多，我在画时序图的时候，一个对象可能要画2-3分钟，从找标识到手工对齐，添加对象名，但是用代码只需要一行解决！

#数据库 #c语言 #后端 +2

【Spark分布式内存计算框架——Spark SQL】15. Catalyst 优化器

优化后的逻辑执行计划依然是逻辑的，需要将逻辑计划转化为Physical Plan。Spark SQL的核心是Catalyst优化器，它以一种新颖的方式利用高级编程语言功能（例如Scala的模式匹配和quasiquotes）来构建可扩展的查询优化器。在第四章【案例：电影评分数据分析】中，运行应用程序代码，通过WEB UI界面监控可以看出，无论使用DSL还是SQL，构建Job的DAG图一样的，性能是一

#spark #分布式 #sql +2

【HBase入门】3. HBase数据模型

在HBASE中，数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样，但将HBASE表看成是多个维度的Map结构更容易理解。

#hbase #大数据 #分布式 +2

【Linux操作系统】1. Linux操作系统简介、安装

本系列是Linux操作系统的一些知识以及实践内容，Linux操作系统作为开发最常使用的操作系统，是必备的一门求职、提升技术。本文先介绍Linux操作系统，并安装一个Linux操作系统。

#linux #网络 #服务器 +2

【Spark分布式内存计算框架——Spark 基础环境】1. Spark框架概述

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据出来框架。Spark生态栈也称为BDAS，是伯克利AMP实验室所开发的，力图在算法（Algorithms）、机器（Machines）和人（Person）三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案

#spark #分布式 #大数据 +2

到底了