【实验与思考】
实验目的
(1) 熟悉大数据存储基础
(2)熟悉大数据技术的基本概念
(3)熟悉开源技术及其商业支援熟悉分布式系统,了解hadoop分布式处理技术
(4)熟悉大数据的数据处理基础知识,了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前,请认真阅读课程的相关内容。
准备一台带有浏览器,能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料,为“大数据”给出一个权威性的定义。
答:"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产
这个定义来源于:Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答:①Volume(数量):是大数据的首要特征,数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别,跃升到PB甚至EB级别
②Variety(种类):数据类型繁多。大数据的挑战不仅是数据量的大,也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外,还有视频、图片等非结构化数据
③Velocity(速度):处理速度快。信息的价值在于及时,超过特定时限的信息就失去了使用的价值。请查阅相关文献资料,简述“促进大数据发展”的主要因素答::数据可视化使数据解读到了一种更加通俗易懂的阶段,使数据的接收和理解变得更加快速和简单:数据集成治理后使得原来零散无用的数据变得有价值,利用互联网络技术还能进行实时统计分析:人工智能算法可以对数据进行深度挖掘和分析,可以产生更优的解决方案和让原来无解的问题得到解决
(4)请仔细阅读本章课文,熟悉大数据的基本概念,了解分布式系统,熟悉大数据的数据处理基础,在此基础上,撰写一篇500字的小论文,讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性,如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于,在 HDFS 中存储数据时不需要模式定义。因此,可以减少预先设计的麻烦。在 Hadoop 中,存储在 HDFS 中的数据在每次处理时都被赋予了意义,因此可以暂时存储它,并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义,让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价(教师)

更多推荐