大数据技术的产生

计算机和信息技术的迅猛发展和各行业大规模的普及应用,行业应用系统的规模迅速扩大,其所产生的数据呈指数型的增长,动辄达到数百TB级甚至数十至数百PB级规模的大数据已经远远超出了传统的计算技术和信息系统的处理能力,从而促进了大数据技术的产生及快速发展。

大数据的基本概念

大数据:指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合,需要新处理模式才能使数据集合称为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。
维基百科对大数据的解释:大数据(Big Data),又称为巨量资料,指的是传统数据处理的应用不足以处理它们的、大或复杂的数据集。大数据也可以定义来自各种来源的大量非结构化和结构化数据,大数据通常包含的数据量超出了通传统软件在人们可接受的时间内进行处理的能力。
智库百科对大数据的解释:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括了大规模并行处理(MPP,Massively parallel),数据库、数据挖掘、分布式分布式数据库、云计算平台、互联网,即可扩展的储存系统。
百度百科对大数据的解释:大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
简而言之,大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集,存储、搜索、共享、传输、分析和可视化等。

云计算与大数据的关系

云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对巨大的数据量所带来的技术挑战。
云计算之于大数据,云计算是底层平台,大数据是应用。云计算作为底层平台整合计算、存储和网络等资源,同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。
云计算的核心是业务模式,其本质是数据处理技术,数据是资产,云计算为数据资产提供了储存、访问的场所和计算能力,即云计算更偏重大数据的存储和计算,以及提供云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,从数据挖掘价值和对数据进行预测性分析,为国家治理决策,企业决策乃至个人生活提供服务,这是大数据的核心应用,云计算是基础设施架构,大数据是思想方法,大数据技术将帮助人们从大体量、高度复杂的数据中分析、挖掘信息,从而发现价值和预测趋势。

大数据的4v特征

特点:
Volume:数据量大
Variety:数据形态多样
Velocity:数据的产生和处理极快
Value:希望从中获取价值

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

  1. 规模性(Volume):大数据需要采集、处理、传输的数据量大;处理PB级的数据是比较常态的情况。企业内部的经营交易信息,网络世界中的商品物、物流信息,人与人的交互信息,位置信息等都是大数据的主要来源。
  2. 多样性(Variety):大数据的种类多,复杂性高;大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且非结构化数据,这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
  3. 高速性(Velocity):大数据需要频繁的采集、处理并输出;因为数据会存在时效性,需要快速处理并得到结果,如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策,要达到立竿见影而非事后见效,实现实时获取需要的信息,一秒是临界点,即对于很多实时大数据应用而言,数据必须要在一秒钟内进行处理,否则处理结果就是过时和无效的。
  4. 价值密度低(Value):大数据不经过相应的处理则价值较低,挖掘大数据的价值类似于沙里淘金,以视频为例,一个一小时的监控视频数据,可能有用的数据只有一两秒,如何通过强大的算法更迅速地完成数据的价值“提纯”,是目前大数据技术研究的重要课题。

大数据的关键技术

大数据技术 ,就是从各种类型的数据中快速获得有价值信息的技术。 大数据 领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
1、大数据预处理
数据采集:ETL(Extract-Transform-Load)是利用某种装置(比如摄像头麦克风)从系统外部采集数据并输入到系统内部的一个接口,在互联网行业快速发展的今天,数据采集经被广泛应用于互联网分布式领域。
数据存取:关系数据库,NoSQL,SQL等
基础架构支持:云储存分布式文件系统等。
计算结果展现:云计算,标签云,关系图等。
2、大数据分析技术
大数据结构复杂,数据构成中更多的是非结构化数据,单纯靠数据库BI对数据化,数据进行分析已经不太适用,所以需要技术的创新,这就产生了大数据分析技术。
数据处理,自然语言处理技术多,媒体内容识别技术,图文转换技术,地理信息技术等。
统计和分析:A/Btest;topN,排行榜地域占比文本情感分析技术;语义分析技术等。
数据挖掘:是关联规则分析;分类;聚类等。
模型预测:预测模型;机器学习;建模仿真;模式识别技术等。

大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。

根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;

根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;

根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度,着重突破:

1、可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。

2、数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。

3、预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

4、语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

5、数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。

什么是结构化、非结构化和半结构化数据

1、结构化数据(Structured Data)
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

2、非结构化数据(Unstructure Data)
非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。支持非结构化数据的数据库广泛应用于全文检索和各种多媒体信息处理领域。

3、半结构化数据(Semi-structured Data)
定义:所谓半结构化数据,就是介于结构化数据(如关系型数据库、面向对象数据库 中的数据)和非结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

更多推荐