一文搞懂什么是Hadoop?Hadoop的前世今生，Hadoop的优点有哪些？Hadoop面试考查重点，大数据技术生态体系

目录1.1 Hadoop 是什么 1.2 Hadoop 发展历史1.3 Hadoop 三大发行版本 1.4 Hadoop优势（4高） 1.5 Hadoop 组成（面试重点） 1.5.1 HDFS 架构概述1.5.2 YARN 架构概述1.5.3 MapReduce 架构概述1.5.4 HDFS、YARN、MapReduce 三者关系1.6 大数据技术生态体系 1.7 推荐系统框架图假如说购买一个东

文章共4,700字 · 阅读需要大约16分钟

一键AI生成摘要，助你高效阅读

问答

Echo bigdata

39821人浏览 · 2022-06-12 18:32:30

Echo bigdata · 2022-06-12 18:32:30 发布

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 大数据技术生态体系

1.7 推荐系统框架图

1.1 Hadoop 是什么

（1 ） Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。

（2 ）主要解决，海量数据的存储和海量数据的分析计算问题。

（3 ）广义上来说， Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

1.2 Hadoop 发展历史

（1 ） Hadoop 创始人 Doug Cutting ，为了实现与 Google 类似的全文搜索功能，他在 Lucene 框架基础上进行优

化升级，查询引擎和索引引擎。

（2 ） 2001 年年底 Lucene 成为 Apache 基金会的一个子项目。

（3 ）对于海量数据的场景， Lucene 框架面对与 Google 同样的困难， 存储海量数据困难，检索海量速度慢 。

（4 ）学习和模仿 Google 解决这些问题的办法：微型版 Nutch 。

（5 ）可以说 Google 是 Hadoop 的思想之源（ Google 在大数据方面的三篇论文）

        GFS --->HDFS

        Map-Reduce --->MR

        BigTable --->HBase

（6 ） 2003-2004 年， Google 公开了部分 GFS 和 MapReduce 思想的细节，以此为基础 Doug Cutting 等人用

了 2 年业余时间 实现了 DFS 和 MapReduce 机制，使 Nutch 性能飙升。

（7 ） 2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。

（8 ） 2006 年 3 月份， Map-Reduce 和 Nutch Distributed File System （ NDFS ）分别被纳入到 Hadoop 项目

中， Hadoop 就此正式诞生，标志着大数据时代来临。

（9 ）名字来源于 Doug Cutting 儿子的玩具大象

1.3 Hadoop 三大发行版本

Hadoop 三大发行版本： Apache 、 Cloudera 、 Hortonworks 。

Apache 版本最原始（最基础）的版本，对于入门学习最好。 2006

Cloudera 内部集成了很多大数据框架，对应产品 CDH 。 2008

Hortonworks 文档较好，对应产品 HDP 。 2011

Hortonworks 现在已经被 Cloudera 公司收购，推出新的品牌 CDP 。

(1 ） Apache Hadoop

官网地址： http://hadoop.apache.org

下载地址： https://hadoop.apache.org/releases.html

(2 ） Cloudera Hadoop

官网地址： https://www.cloudera.com/downloads/cdh

下载地址： https://docs.cloudera.com/documentation/enterprise/6/release

notes/topics/rg_cdh_6_download.html

（ 1 ） 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供 Hadoop 的

商用解决方案，主要是包括支持、咨询服务、培训。

(2 ） 2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。 Cloudera 产品主

要为 CDH ， Cloudera Manager ， Cloudera Support

（3 ） CDH 是 Cloudera 的 Hadoop 发行版，完全开源，比 Apache Hadoop 在兼容性，安

全性，稳定性上有所增强。 Cloudera 的标价为每年每个节点 10000 美元。

（4 ） Cloudera Manager 是集群的软件分发及管理监控平台，可以在几个小时内部署好一

个 Hadoop 集群，并对集群的节点及服务进行实时监控。

（3 ） Hortonworks Hadoop

官网地址： https://hortonworks.com/products/data-center/hdp/

下载地址： https://hortonworks.com/downloads/#data-platform

（ 1 ） 2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。

（2 ）公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师，上述

工程师均在 2005 年开始协助雅虎开发 Hadoop ，贡献了 Hadoop80% 的代码。

（3 ） Hortonworks 的主打产品是 Hortonworks Data Platform （ HDP ），也同样是 100% 开

源的产品， HDP 除常见的项目外还包括了 Ambari ，一款开源的安装和管理系统。

（4 ） 2018 年 Hortonworks 目前 已经被 Cloudera 公司收购

1.4 Hadoop优势（4高）

1.5 Hadoop 组成（面试重点）

1.5.1 HDFS 架构概述

Hadoop Distributed File System ，简称 HDFS ，是一个分布式文件系统

（1 ） NameNode （ nn ）：存储文件的 元数据 ，如 文件名，文件目录结构，文件属性 （生成时间、副本数、

文件权限），以及每个文件的 块列表 和 块所在的 DataNode 等。

（2 ） DataNode(dn) ：在本地文件系统 存储文件块数据 ，以及 块数据的校验和 。

（3 ） Secondary NameNode(2nn) ： 每隔一段时间对 NameNode 元数据备份 。

简单的说就是NameNode就相当于一个目录，一个索引，负责标记每一个DataNode的存放位置

而DataNode才是真正存放数据的， Secondary NameNode(2nn) ：相当与老板的一个秘书，他会备份一部分数据，不会备份全部数据。

1.5.2 YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ，另一种资源协调者，是 Hadoop 的资源管理器。

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段： Map 和 Reduce

（1 ） Map 阶段并行处理输入数据

（2 ） Reduce 阶段对 Map 结果进行汇总

1.5.4 HDFS、YARN、MapReduce 三者关系

HDFS

YARN

用户提交任务，任务给到ResourceManager，ResourceManager 会找一个节点NodeManager，开启一个Container ，把任务(App Mstr)放在Container App Mstr会向

ResourceManager申请说自己需要多少资源 ResourceManager 看哪一个DataNode有资源，给他分配资源之后 App Mstr 会在被分配的资源节点上开启计算任务（MapTask ），这个其实就是MapReduce 的map阶段，之后会返回一个Reduce到各自对应的节点，这就是他们三者之间的关系

1.6 大数据技术生态体系

图中涉及的技术名词解释如下：

1.7 推荐系统框架图

假如说购买一个东西，打开京东首页，购买一个东西，这个购买行为会被记录下来，通过Nginx负载均衡打入到日志收集中，这种用户行为数据通常是用文件形式存储的，然后Flume进行日志收集

采集完之后，给Kafka 进行一个消息的缓冲，缓冲后，由于我们推荐系统具有实时性，所以走

Spark Streaming ，或 Flink进行实时计算，（用户是想购买呢，还是什么行为，以及下次给他推荐什么样的商品能够促进他的消费），将计算结果返回到后台，这个结果你可以用数据库或者是分析结果文件的形式存储，然后再被推荐业务的后台读走数据，最终反馈到前台页面展示出来！

本篇博客是在进行尚硅谷大数据相关课程学习后，加上自己的一些理解得出的一篇博客，希望能给学习Hadoop同学一些启发！

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

【目标检测】目标检测的一些常用神经网络模型及方法

我的阶段性总结????文章目录1.概述1.2 目标检测的任务1.3 目标检测的分类2.R-CNN系列2.1 [R-CNN（Region with CNN features）](https://arxiv.org/pdf/1311.2524.pdf)2.2 [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/