logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HBase进阶

HBase读写流程采用分布式架构,客户端通过Zookeeper定位元数据表(hbase:meta)位置,缓存Region信息后直接与目标RegionServer交互。写流程通过WAL日志和MemStore实现数据持久化,定期刷写为HFile文件,并自动进行Minor/Major合并优化存储。读流程优先查询BlockCache和MemStore,未命中则读取磁盘文件。表设计强调反范式化,通过冗余列族

文章图片
#hbase#数据库#大数据
Flume概述与基础

Flume是一个分布式、高可用的日志采集系统,用于高效收集、聚合和传输海量日志数据。其核心架构由Source、Channel和Sink组成,支持多种数据源和存储目的地。Flume提供Exec Source、SpoolDir Source和Taildir Source等采集方式,其中Taildir Source兼具实时性和可靠性。在数据输出方面,Flume支持HDFS、Hive和HBase等多种Si

文章图片
#flume#大数据
HBase概述、架构

HBase基于Hadoop HDFS构建,支持海量数据的实时读写。它采用列式存储,可轻松处理百亿行级别的数据,解决了传统关系型数据库在扩展性上的瓶颈。HBase架构包含RegionServer、Master和Zookeeper等组件,通过自动分片和负载均衡实现高可用性。相比MySQL分库分表方案,HBase具有自动扩容、高效列查询和历史数据版本管理等优势,特别适合大数据场景下的随机读写需求。其数据

文章图片
#hbase#架构#数据库
Yarn资源调度器

YARN作为Hadoop资源管理系统,采用解耦设计将资源管理与任务调度分离,由ResourceManager和ApplicationMaster协同工作。本文详细解析了YARN的核心架构和工作流程,并通过工厂生产场景进行形象类比。同时提供了YARN高可用(HA)的完整配置方案。最后对比分析了FIFO、CapacityScheduler和FairScheduler三种资源调度器的特性。文中还包含完整

文章图片
#大数据#hadoop#yarn
到底了