熟悉大数据存储基础（实验报告）

晨序猿

1543人浏览 · 2022-09-08 11:29:02

晨序猿 · 2022-09-08 11:29:02 发布

【实验与思考】
实验目的
（1）熟悉大数据存储基础
（2）熟悉大数据技术的基本概念
（3）熟悉开源技术及其商业支援熟悉分布式系统，了解hadoop分布式处理技术
（4）熟悉大数据的数据处理基础知识，了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前，请认真阅读课程的相关内容。
准备一台带有浏览器，能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料，为“大数据”给出一个权威性的定义。
答："大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
这个定义来源于：Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答：①Volume（数量）：是大数据的首要特征，数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别，跃升到PB甚至EB级别
②Variety（种类）：数据类型繁多。大数据的挑战不仅是数据量的大，也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外，还有视频、图片等非结构化数据
③Velocity（速度）：处理速度快。信息的价值在于及时，超过特定时限的信息就失去了使用的价值。请查阅相关文献资料，简述“促进大数据发展”的主要因素答：：数据可视化使数据解读到了一种更加通俗易懂的阶段，使数据的接收和理解变得更加快速和简单：数据集成治理后使得原来零散无用的数据变得有价值，利用互联网络技术还能进行实时统计分析：人工智能算法可以对数据进行深度挖掘和分析，可以产生更优的解决方案和让原来无解的问题得到解决
（4）请仔细阅读本章课文，熟悉大数据的基本概念，了解分布式系统，熟悉大数据的数据处理基础，在此基础上，撰写一篇500字的小论文，讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性，如果分布式处理的 HDFS 容量或资源用完，可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外，可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于，在 HDFS 中存储数据时不需要模式定义。因此，可以减少预先设计的麻烦。在 Hadoop 中，存储在 HDFS 中的数据在每次处理时都被赋予了意义，因此可以暂时存储它，并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完，可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外，可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义，让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价（教师）

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责