logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HBase 分布式存储系统

定义:基于 Hadoop 的分布式、面向列的开源数据库,支持大数据随机定位和实时读写。原型:源自 Google Bigtable,对应关系:HDFS→GFS、MapReduce→MapReduce、Zookeeper→Chubby。特点:实时性强、存储空间大、可伸缩、高可靠、面向列、数据类型单一(字符串)。

#分布式#hbase#数据库
Hadoop2.0 新特性

定义:Yet Another Resource Negotiator,基于 MapReduce 的资源协调框架。核心组件:ResourceManager、NodeManager、ApplicationMaster、Container。优势:支持多版本 MapReduce、计算框架升级便捷。定义:基于 Zookeeper 实现的高可用集群模式,包含 HDFS HA 和 Yarn HA。核心目标:解决

#hadoop
MapReduce 分布式计算框架

指用户提交的 MapReduce 应用程序,是计算请求的载体。核心功能:提交作业、跟踪进度、访问任务报告、获取集群状态。提交流程:检查输入输出格式→计算 InputSplit→复制 jar 包和配置→提交到 ResourceManager。提交方法:Job.submit ()(立即返回)、Job.waitForCompletion (boolean)(等待完成)。大量数据集中分配到单个分区,导致部

#mapreduce#大数据
到底了