初学者看大数据生态圈

先从Hadoop说起。经常看到有大咖在语录中提及：有了Spark，就永远不要Hadoop了，真有大咖这么说的，不信百度能看见。仔细想下，有点道理：如果只是作为业务层面的开发者，对于大数据技术而言，确实只学Spark就可以了，但是如果是系统架构师的话，hadoop还是要学的，因为作为大数据的系统架构师，没办法回避hadoop。Hadoop的三个概念组件，spark在这里主要替代的是Map

自由的海盗

1476人浏览 · 2018-06-21 02:21:25

自由的海盗 · 2018-06-21 02:21:25 发布

先从Hadoop说起。

经常看到有大咖在语录中提及：有了Spark，就永远不要Hadoop了，真有大咖这么说的，不信百度能看见。

仔细想下，有点道理：如果只是作为业务层面的开发者，对于大数据技术而言，确实只学Spark就可以了，但是如果是系统架构师的话，hadoop还是要学的，因为作为大数据的系统架构师，没办法回避hadoop。

Hadoop的三个概念组件，

spark在这里主要替代的是MapReduce，

YARN和HDFS还没有发现其他东西能替代。

YARN以初学者的理解，就是NodeManager，负责管理分布式文件系统各个节点的。

HDFS-

Hadoop Distributed File System 的架构图挺好看的，给像我这样的小白们再留念一下

说白了，玩大数据是离不开hadoop的hdfs的，只是hadoop管的挺好，不用系统开发的人操心分布式文件系统的事了。

说Hadoop，就有必要提下Hive这个东西，Hive是一个数据仓库软件，不是数据仓库，也就是说它不负责数据存储，只是提供一种机制去映射HDFS上的数据，并且可以通过比较通俗易懂的类SQL语言进行一些数据操作，关于Hive与Hadoop的关系，有副好图

Spark的Spark SQL也可以取代Hive SQL。

好了，分割线---------------------

接下来说 Data Serialization，数据序列化，其实没啥可说的，作为初学者，只是认为：如果HDFS是数据库的话，数据序列化就是Hibernate的Entity，只是这个Entity更适合用于网络传输。

几种数据序列化的框架需要了解下，要不出门被人骗：

Avro ..... 百度吧，不说了

Apache Thrift.... 这个牛掰，貌似用的最多，百度吧，不说了

Protocol Buffers....Google开发的，牛

SequenceFile....百度

好了，分割线---------------------

接下来说下 Columnar Storage 列式存储，这个主要是对应行式存储说的，行式存储就是我们最常见的关系型数据库，数据记录是一条一条的。

列式存储和行式存储有啥区别呢：

列式存储的keyspace概念，相当于关系型数据库的schema；column family概念相当于关系型数据的table

column family里的数据的格式是这样的：

column family里的详细数据就像这样：

column family每行数据的列可以是不同的，名字不同、个数也不同，至于这样存储的好处，相信DBA们一眼就可以看出来，分库、扩展，都方便很多，而且数据更容易压缩，对于数据的载入和查询，效率会更高。

说这么多，一个大数据系统，要列式存储干嘛啊？

大数据架构一直流行Lambda架构，Lambda架构把大数据系统分成三层，批处理层、服务层和速度层，分这么多层干嘛，因为大数据的查询速度慢啊，高延迟，所以Lambda架构在批处理层做查询的预处理，就是先在HDFS查出一个批处理视图，然后把批处理视图存储到更快的更方便查询的介质上，以便更快的响应查询，这个更快的更方便查询的介质，就是列式存储的文件格式了。

至于Lambda架构，也有kappa架构与之对应，孰优孰劣，下次再谈吧。

好了，分割线---------------------

接下来说下NoSQL， NoSQL 不是No SQL！的意思，是Not Only SQL的意思，NoSQL数据库可谓已经百花齐放了。

《大数据系统构建》这本书作者是Lambda架构的提出者，他在该书上说，“在很多方面，选择使用NoSQL数据库，就像在程序中，在HashMap、SortedMap、LinkedList或者Vector之间选择使用数据结构一样。你事先要知道自己想做什么，然后恰当的进行选择”。

这样就可以了，不必把自己局限在选择哪一种数据库上，用的时候，直接用就可以了，因为每种NoSQL数据库确实是为了解决某一方面的问题而存在的。

现在的NoSQL数据库大概可分为三类：列式存储的、面向文档的和图形化的。

列式存储的NoSQL数据库主要面向大数据，包括Cassandra、HBase等。

面向文档的NoSQL数据库包括：MongoDB、CouchDB等

图形化NoSQL数据库主要是描述关系的，包括Neo4J、GraphDB等。

至于各种NoSQL数据库的对比，下次再谈吧。

好了，分割线---------------------

还有最后一个要介绍的：Distributed SQL Query Engine 分布式SQL查询引擎，分布式SQL查询引擎的大部分是为了取代MapReduce而存在的，有的支持更多，比如支持NoSQL数据库的查询，甚至支持JDBC/ODBC接口，包括：

Impala

Presto

Apache Drill 等

以上就是一个初学者看到的大数据生态圈，更深入的，以后我们一起探索吧。

敬请扫码关注盲点技术号，我们将持续努力与您一起学习探讨开发技术

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这