大数据介绍

什么是大数据

在这里插入图片描述

大数据特点

在这里插入图片描述

大数据能做什么

在这里插入图片描述

大数据项目流程介绍

  1. 数据生产
  2. 数据采集
  3. 数据存储
  4. 需求分析
  5. 数据预处理
  6. 数据计算
  7. 结果数据存储
  8. 结果数据展现

大数据基础知识

什么是服务器?

在这里插入图片描述

服务器类型

按应用层次划分

入门级服务器、工作组级服务器、部门级服务器和企业级服务器四类。

按用途划分

通用型服务器、专用型服务器两类。

按机箱结构划分

塔式服务器
刀片式服务器
机架式服务器(1U、 2U、 4U) 1U=1.75英寸=4.445厘米(cm)
机柜式服务器

存储磁盘(硬盘)

硬盘有机械硬盘(HDD)、固态硬盘(SSD)和固态混合硬盘(SSHD)之分。

机械硬盘

机械硬盘即是传统普通硬盘,主要由:盘片,磁头,盘片转轴及控制电机,磁头控制器,数据转换器,接口,缓存等几个部分组成。

固态硬盘(SSD)

固态硬盘是用固态电子存储芯片阵列而制成的硬盘,采用闪存颗粒来存储,SSD由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。固态硬盘在接口的规范和定义、功能及使用方法上与普通硬盘的完全相同,在产品外形和尺寸上也完全与普通硬盘一致。

混合硬盘

混合硬盘是一块基于传统机械硬盘诞生出来的新硬盘,除了机械硬盘必备的碟片、马达、磁头等等,还内置了NAND闪存颗粒,这颗颗粒将用户经常访问的数据进行储存,可以达到如SSD(就是固态硬盘)效果的读取性能 。

机械硬盘与固态硬盘优缺点对比

  1. 防震抗摔性:机械硬盘都是磁碟型的,数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒(即内存)制作而成,所以SSD固态硬盘内部不存在任何机械部件,在发生碰撞和震荡时数据丢失的可能性降到最小。相较机械硬盘,固硬占有绝对优势。
  2. 数据存储速度:从PConline评测室的评测数据来看,固态硬盘相对机械硬盘性能提升2倍多。
  3. 功耗:固态硬盘的功耗上也要低于机械硬盘。
  4. 重量:固态硬盘在重量方面更轻,与常规1.8英寸硬盘相比,重量轻20-30克。
  5. 价格:截至目前(2018/11/20),品牌的128Gb 固态硬盘为150元左右。而1Tb 的机械硬盘价格才280左右。固态硬盘比起机械硬盘价格较为昂贵,性价比较低。
  6. 使用寿命:机械硬盘寿命长,固态硬盘寿命短。

什么是RAID

RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列,通常简称为磁盘阵列。简单地说, RAID 是由多个独立的高性能磁盘驱动器组成的磁盘子系统,从而提供比单个磁盘更高的存储性能和数据冗余的技术。RAID 是一类多磁盘管理技术,其向主机环境提供了成本适中、数据可靠性高的高性能存储。

RAID特点

1.大容量

它扩大了磁盘的容量,由多个磁盘组成的 RAID 系统具有海量的存储空间。现在单个磁盘的容量就可以到 10TB 以上,这样 RAID 的存储容量就可以达到 PB 级。

2.高性能

RAID 的高性能受益于数据条带化技术。单个磁盘的 I/O 性能受到接口、带宽等计算机技术的限制,性能往往很有限,容易成为系统性能的瓶颈。通过数据条带化, RAID 将数据 I/O 分散到各个成员磁盘上,从而获得比单个磁盘成倍增长的聚合 I/O 性能。

3.可靠性

可用性和可靠性是 RAID 的另一个重要特征。理论上由多个磁盘组成的 RAID 系统在可靠性方面应该比单个磁盘要差。这里有个隐含假定:单个磁盘故障将导致整个 RAID 不可用。 RAID 采用镜像和数据校验等数据冗余技术,打破了这个假定。 镜像是最为原始的冗余技术,把某组磁盘驱动器上的数据完全复制到另一组磁盘驱动器上,保证总有数据副本可用。

4.可管理性

RAID 是一种虚拟化技术,它对多个物理磁盘驱动器虚拟成一个大容量的逻辑驱动器。对于外部主机系统来说, RAID 是一个单一的、快速可靠的大容量磁盘驱动器。这样,用户就可以在这个虚拟驱动器上来组织和存储应用系统数据。 从用户应用角度看,可使存储系统简单易用,管理也很便利。

RAID种类

RAID(0-7)、RAID00、RAID10、RAID01、RAID100、RAID30、RAID50、RAID60、
常用的RAID 等级有 RAID0 、 RAID1 、 RAID10 、 RAID01 和 RAID5 。

RAID0

RAID0 是一种简单的、无数据校验的数据条带化技术。实际上不是一种真正的 RAID ,因为它并不提供任何形式的冗余策略。 RAID0 将所在磁盘条带化后组成大容量的存储空间,将数据分散存储在所有磁盘中,以独立访问方式实现多块磁盘的并读访问。由于可以并发执行 I/O 操作,总线带宽得到充分利用。再加上不需要进行数据校验,RAID0 的性能在所有 RAID 等级中是最高的。
  RAID0 具有低成本、高读写性能、 100% 的高存储空间利用率等优点,但是它不提供数据冗余保护,一旦数据损坏,将无法恢复。 因此, RAID0 一般适用于对性能要求严格但对数据安全性和可靠性不高的应用,如视频、音频存储、临时数据缓存空间等。

RAID1

RAID1 称为镜像,它将数据完全一致地分别写到工作磁盘和镜像 磁盘,它的磁盘空间利用率为 50% 。 RAID1 在数据写入时,响应时间会有所影响,但是读数据的时候没有影响。 RAID1 提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。
  RAID1 与 RAID0 刚好相反,是为了增强数据安全性使两块 磁盘数据呈现完全镜像,从而达到安全性好、技术简单、管理方便。 RAID1 拥有完全容错的能力,但实现成本高。 RAID1 应用于对顺序读写性能要求高以及对数据保护极为重视的应用,如对邮件系统的数据保护。

RAID5

RAID5是有数据校验的数据条带化技术,数据分布在阵列中的所有磁盘上,使用校验盘技术,按照块的方式来组织数据,校验数据分布在阵列中的所有磁盘上。
应该是目前最常见的 RAID 等级,对于数据和校验数据,它的写操作可以同时发生在完全不同的磁盘上。RAID5 还具备很好的扩展性。当阵列磁盘 数量增加时,并行操作量的能力也随之增长。
  RAID5 兼顾存储性能、数据安全和存储成本等各方面因素,它可以理解为 RAID0 和 RAID1 的折中方案,是目前综合性能最佳的数据保护解决方案。 RAID5 基本上可以满足大部分的存储应用需求,数据中心大多采用它作为应用数据的保护方案。

什么是集群?

集群是一组相互独立的、通过高速计算机网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。

计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。

什么是计算机网络?

计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

什么是交换机?

交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。

什么是局域网?

局域网是指在某一区域内由多台计算机互联成的计算机组。一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。

什么是网络拓扑?

网络拓扑(Network Topology)结构是指用传输介质互连各种设备的物理布局。指构成网络的成员间特定的物理的即真实的、或者逻辑的即虚拟的排列方式。

以太网络

优点:
是当前局域网的实时标准,配置方便,即插即用,软件支持丰富。
价格便宜,随处可得。
缺点:
无论是延迟还是吞吐量都不如一些专用网络。
用途:
是构建局域网最方便的方式。
现在被广泛用于云计算中的大规模数据处理集群中。
常见的带宽,1Gbps以及10Gbps。

InfiniBand网络

优点:
延迟极低(不到400纳秒)、很高吞吐量(高达40Gbps)。
结构先进(Offloading Engine,Zero Copy)。
缺点:
价格较贵、软件支持较少。
影响较低,与传统以太网络不兼容。
用途:
多用于高性能计算领域。
常见的带宽,10Gbps,20Gbps以及40Gbps。

什么是机架?

全称为机架式服务器,是用于固定电信柜内的接插板、外壳和设备。通常宽19英寸,高7英尺。对于IT行业,可简单理解为存放服务器的机柜。
机柜一般是冷轧钢板或合金制作的用来存放计算机和相关控制设备的物件,可以提供对存放设备的保护,屏蔽电磁干扰,有序、整齐地排列设备,方便以后维护设备。机柜一般分为服务器机柜、网络机柜、控制台机柜等。

IDC数据中心

互联网数据中心(Internet Data Center)简称IDC,就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。

更多推荐