第一章 概述

在这里插入图片描述
信息科技为大数据时代提供技术支撑

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

大数据的“4V”

  1. 数据量大
  2. 数据种类繁多
  3. 处理速度快
  4. 价值密度低

大数据关键技术
两大核心技术:分布式存储 HDFS 和 分布式处理 MapReduce

在这里插入图片描述
在这里插入图片描述
大数据与云计算、物联网的关系
在这里插入图片描述

第二章 hadoop

在这里插入图片描述
Hadoop特性

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

在这里插入图片描述

第三章 hdfs

HDFS要实现以下目标:
在这里插入图片描述
HDFS默认一个块64MB

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第四章 Hbase

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Region的定位
在这里插入图片描述
HBase的三层结构中各层次的名称和作用
在这里插入图片描述
HBase系统架构

在这里插入图片描述
Region服务器工作原理

  1. HLog:磁盘上的记录文件
  2. Store:存储了表中的一个列族
  3. MemStore:内存中的缓存,保存最近更新的数据
  4. StoreFile:磁盘中的文件

用户读写数据过程

用户写入数据时,被分配到相应Region服务器去执行
用户数据首先被写入到MemStore和Hlog中
只有当操作写入Hlog之后,commit()调用才会将其返回给客户端
当用户读取数据时,Region服务器会首先访问MemStore缓存,如果找不到,再去磁盘上面的StoreFile中寻找

在这里插入图片描述

第五章 NoSQL

NoSQL数据库具有以下几个特点:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

更多推荐