Hbase 写入流程读取流程合并流程

HBase是一个开源的、分布式的、可伸缩的、大数据存储系统，它是Apache Hadoop生态系统的一部分，用于存储非结构化和半结构化的松散数据。HBase是基于Google的Bigtable设计的，提供高可靠性、高性能、面向列的存储和实时读写访问。

文章共966字 · 阅读需要大约4分钟

一键AI生成摘要，助你高效阅读

问答

vmaps · 2024-03-05 08:39:44 发布

以下是HBase的写入流程、读取流程和合并流程的基本概述：

客户端请求：客户端通过HBase RPC（远程过程调用）向HBase Master发送写入请求。
Region分配：Master根据Region的分配策略，确定哪个Region Server包含目标Region，并将写入请求转发给相应的Region Server。
MemStore写入：Region Server接收到请求后，在对应的Region的MemStore（内存中的存储）中写入数据。MemStore是一个排序的日志结构，它按照RowKey的顺序存储数据。
WAL写入：同时，为了保证数据的持久性，Region Server还会将数据写入WAL（Write-Ahead Logging，预写式日志）。WAL是HBase中用于故障恢复的一种机制，如果Region Server崩溃，可以通过WAL中的数据来恢复数据。
数据刷新：当MemStore的大小达到配置的上限时，Region Server会将其刷新（flush）到HDFS（Hadoop Distributed File System）上，生成一个HFile文件。这个过程通常是异步的，以保证写入性能。
客户端确认：一旦数据被写入WAL和MemStore（或者在刷新到HDFS之后），Region Server会向客户端发送确认消息，表示写入操作完成。

客户端请求：客户端通过HBase RPC向HBase Master发送读取请求。
Region分配：Master根据Region的分配策略，确定哪个Region Server包含目标Region，并将读取请求转发给相应的Region Server。
MemStore查询：Region Server首先在对应的Region的MemStore中查询数据。由于MemStore中的数据是最新的，所以这一步是必要的。
HFile查询：如果MemStore中没有找到数据，Region Server会继续在HDFS上的HFile文件中查询数据。HFile文件按照RowKey的顺序存储数据，所以HBase可以高效地定位到目标数据。
数据返回：Region Server将查询到的数据返回给客户端。

HBase中的合并流程主要用于优化HFile文件，减少文件数量和大小，提高读取性能。合并流程包括以下步骤：

选择合并文件：HBase会根据一定的策略（如文件大小、年龄等）选择需要合并的HFile文件。
创建新的HFile：Region Server创建一个新的HFile文件，用于存储合并后的数据。
数据合并：Region Server将选定的HFile文件中的数据进行合并，按照RowKey的顺序写入新的HFile文件。在这个过程中，HBase会删除重复的数据和过期的数据（TTL过期的数据）。
替换旧文件：合并完成后，新的HFile文件会替换掉原来的HFile文件。同时，HBase会更新其元数据，以反映这种变化。
删除旧文件：在替换新文件后，原来的HFile文件会被标记为删除，并在后续的垃圾回收过程中被删除。