大数据项目最重要的两个特点是数据量大,实时性要求强,这也是与小数据和传统数据处理方式的最重要的区别。

大数据领域的主打项目,如下所示:
在这里插入图片描述

在这里插入图片描述
大数据领域的项目,主要分成以下几个部分

  1. 数据的整合,也就是数据的输入和存储。
  2. 数据的处理,包括流的处理以及专业的大数据处理,离线和实时处理,可视化处理等。
  3. 数据的快速查询,ETL是典型。
  4. 数据集群提供服务,也就是集成上面一种或者多种,给用户提供服务。

说到底,也是计算机的设计思想,I/0,存储,处理。只不过数据量变大之后,原有的技术已经不能够快速、实时的处理。所以采用了数仓进行存储,采用了分布式的方式进行计算。

所以,大数据处理的核心和难点也就在于两个方面,一个是如何集成数据,另一个是如何分散处理数据。这也就造就了大数据的职业方向,一个是数仓的建设,另一个是分布式计算和实时计算。当然数据的价值,体现在你能挖掘出来多少价值(废话文学),所以数据挖掘和数据分析这种岗位也是大数据的重要方向。

参考文献

本文是参照大数据工程师必须掌握的7个项目进行的总结。

更多推荐