对于大数据的概念,可以从技术和管理两个方面来定义:在技术方面,主要是从大数据 获取、储存和应用的过程进行分析,比如麦肯锡提出的“大数据是一种数据容量超越了常规 数据技术获取、存储、处理和应用能力的数据合集”;维基百科“大数据表面上是指容量巨 大的数据合集,实际上从技术的角度来看,是指使用常用的硬件和软件工具获取和分析数据 所需时间超过可接受时间的数据集”。在管理方面,主要是从大数据所蕴含的潜在价值以及 能够被挖掘出的可能性出发进行分析,比如EMC公司对大数据的定义是:“大数据无论是TB数 量级还是PB数量级,即使数据的精确数量再多,也不如数据最终的使用价值结果重要”;IDC 将大数据描述为“大数据是最新的数据分析技术,它能够实现高频的数据处理,从体量巨大 和类型复杂的数据中快速获取价值,提高数据处理的效率”。
对于大数据的特征,学术界普遍认可的是麦肯锡公司提出的“4V”特征,即容量巨大 (Volume)、种类复杂(Variety)、处理速度快(Velocity)、价值密度低(Value)。IBM 在研究报告中提到大数据的特性还应该包括准确性(Veracity)。弗雷斯特研究公司的分析 师鲍里斯•埃韦尔松和布赖恩•霍普金又提出了易变性(Variability)。
1)容量巨大。十年前我们对数据容量的认知单位还仅限于MB和GB,而现在商业中用到 的最基本的数据容量单位已经达到了TB,像百度、腾讯、阿里这样的网络公司,它们数据集 的容量单位已经达到了ZB(1ZB=1万亿GB)。毫无疑问,如今数据的存储量正在急剧增长, 更令人震惊的是IDC的《数据宇宙》报告显示:目前,全球的数据量仍在持续增长,每年的 增速在40%以上,到2020年全球数据量将突破44ZB。巨大的数据量来源于巨大的网络使用 量,2018年全球互联网用户已经达到了40亿,占到了全世界人口的51%,并且该数量还在持 续上升,如此庞大的网络使用量,只会产生更多的数据,我们已经生活在数据之中。对于数 据量的大小以及增长速度,有多种多样的说法和预测结果,但唯一能够肯定的是数据量将会 以高速持续增长。
2)种类复杂。我们通常所说的数据是一个整体性的概念,按照不同的划分方式,数据 可以被划分为多种类型,最常用和最基本的就是利用数据关系进行划分,有结构化数据、半 结构化数据和非结构化数据,在小数据时代基本以结构化数据为主,随着数据技术的不断发 展才出现了半结构化和非结构化数据。另外,从数据来源上划分,有社交媒体数据、传感器 数据和系统数据。从数据格式上划分,有文本数据、图片数据、音频数据、视频数据等。近 几年数据的种类增加了很多,主要原因是移动设备、传感器以及通讯手段的增加,如此复杂 多变的数据种类,带来的将是数据分析和数据处理的困难,势必会引发相应技术的变革。
3)处理速度快。数据的数量和类型都在不断增加,直接影响到的就是数据的处理速 度。很简单的例子,我们所使用的智能手机和电脑为什么会不断地更新换代,最主要的原因 就是智能设备CPU的处理速度必须要跟上数据增长的速度,否则就会造成卡顿问题。大数据 时代的基本要求就是速度要快,在数据资源化的趋势下,当今时代数据已然成为一种资源, 但数据同现实中的物质资源不同,物质资源是不会消失和失去自身价值的,由于数据自身具 有时效性,其所能挖掘的价值可能稍纵即逝,如果大量的数据来不及处理,就会变成数据垃 圾。所以,现在的网络市场,各大互联网公司进行的不仅仅是数据的竞争,同时还是速度的 竞争,要想在市场中占据主动地位,就必须要对拥有的数据进行快速的、实时的处理。
4)价值性。价值性是大数据最本质的特性之一,大数据之所以能够得到各行各业的重 视,主要原因就是其背后巨大的潜在价值,但是它的价值密度却很低。价值密度我们可以理 解成有用数据在总数据中所占的比例,比如2014年美国波士顿马拉松爆炸案中,警方从现场 调取了10TB的监控数据才找到了一张嫌疑犯的照片价值密度低的原因一方面是因为庞大的数 据量和复杂的数据类型,基数过大带来的不仅是有价值的数据更多的是垃圾数据和无用数 据;另一方面是因为处理速度过慢,无法迅速准确的获取有价值的数据。纵使价值密度低, 也无法阻挡人们对大数据的狂热,其根源还是在于数据背后所隐藏的巨大价值,大数据预 测,将是大数据发展的主要方向。

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐