时空大数据

大数据

大数据:指其规模(体量)和复杂程度(多样性)常常超出了现有数据库管理软件和传统数据处理技术在可接受的时问内(快速)收集、存储、管理、检索、分析、挖掘和可视化(价值)能力的数据集的聚合。

大数据的特征

  • 数据体量(volume)大
  • 数据类型(variety)多
  • 处理速度(velocity)快
  • 价值(value)含量高

时空数据

时空数据:指以地球(或其他星体)为对象,基于统一时空基准,与位置相关联的地理要素或现象的数据集,具有空问维(s)、属性维(D)和时间维(T)等基本特征。

  • 空间维:指地理信息具有精确的三维空间位置( S − X Y Z S-XYZ SXYZ)或空间分布特征,具有可量测性,需要一个高精度的空间基准;
  • 属性维:指空间维上可加载的各种相关信息(属性或专题信息),具有多维特征,需要一个科学的分类体系和标准编码体系;
  • 时间维:指地理信息是随时间的变化而变化的,具有时态性,需要一个精确的时问基准。

时空数据的本质功能: 反映地理世界(时空)各要素或现象的数量和质量特征、空问结构和空间关系及其随时间的变化,是人类认知地理世界的基础。

时空数据反映人类活动(社会、经济、文化、工作、学习和生活)的时空规律,是一切大数据集合(空间化)和聚合(一张图)的基础时空框架,是各部门各行业信息系统的基础时空信息共享平台。

时空大数据内涵

时空大数据是指基于统一的时空基准(空间参照系 统、时间参照系统) ,存在于空间与时间中,与位置直接(定位) 或间接(时空分布) 相关联的大规模海量数据集。

时空大数据由“基础地理时空数据”和“部门行业专题数据” 融合而成。

  • 基础地理时空数据:包括时空基准数据、GNSS 与 CORS 数据、空间大地测量与物理测量数据、海洋测绘和海图数据、摄影测量数据、遥感影像数据、“ 4D” 数据和地名数据等
  • 部门行业专题数据:包括政府部门 / 企业 / 研究院所业务数据和科学数据、视频观测数据、搜索引擎数据、网络空间数据、社交网络数据、变化检测数据、与位置相关的空间媒体数据和人文地理数据等。

时空大数据的基本特征

  1. 位置特征
    点、线、面的三维空间位置( S i — X i Y i Z i S_i— X_i Y_i Z_i SiXiYiZi) ,点、线、面的空间关系(拓扑、方向、变量);由点构成线,由点、线构成面,由点、线、面构成体。
  2. 属性特征
    每个点、线、面、体都有自身的数量、质量特征。
  3. 时间特征
    物体(现象)的位置、属性等随时间变化而变化。
  4. 尺度特征
    空间尺度或比例尺随应用需求而不同,大比例尺为小尺度,小比例尺为大尺度。
  5. 分辨率特征(针对影像)
    包括空间分辨率、光谱分辨率和时间分辨率(重访周期) 。
  6. 异构性特征
    包括时空基准、时间、尺度和语义等的不一致性和不完整。
  7. 多样性特征
    数据类型多样(图像、文本、视频和音频) 、数据结构多样(结构化、半结构化和非结构化) 。
  8. 巨量性特征
    指数据量巨大,达到 TB,PB, EB 甚至 ZB 级,需要科学先进的存储管理技术。
  9. 多维特征
    空间维( S i — X i Y i Z i S_i—X_i Y_i Z_i SiXiYiZi)、属性维( D i D_i Di)和时间维( T i T_i Ti)构成多维数据。
  10. 价值隐含性特征
    指大量不相关的信息,需要关联;数据隐含价值,需要进行数据挖掘以发现 知识。
  11. 快速性特征
    因为是流数据,要做到事前而非事后,所以处理速度要快。

时空大数据的发展前景

目前来看,国际上的时空大数据科学的研究仍处于起步阶段,需要面向具体应用开展深入研究。

  • 在国防领域:整体态势感知是现代化国防的关键,具有整体获取特性的遥感大数据在国防上意义重大;
  • 在气象领域:空间信息是气象预测的基础,能融合时空大数据的气象大数据将为大气环境监测、农业灾害监测提供强有力的支撑;
  • 在交通领域:融合了地理位置信息、空间信息的时空大数据将是应急处置的重要决策依据,可以提高应急交通指挥决策的科学;
  • 在医疗领域:应用时空分析技术研究疾病数据的时空分布特征,探讨疾病的流行区域、流行特征和流行周期,可为公共卫生问题、卫生突发事件提供信息咨询和应对策略。
  • 在社交网络领域:近年来,社交网络应用借助GPS设备记录用户轨迹数据,通过“签到”应用分享位置信息,分析这些共享的位置信息可以推测用户的出行规律,进而为用户推荐兴趣热点(Point of Interest,POI)。

时空大数据挖掘面临的挑战

1.海量数据管理

为了分析处理时空大数据,需要研究更可靠、更有效和更实用的数据管理和处理技术。 近年来,社交网络和移动互联网的快速发展,造成数据规模成倍扩大,海量数据增加的速度远远超过现有的处理能力。
虽然以 MapReduceHadoop 为代表的大规模并行计算平台的出现,为学术界提供了一条研究大数据问题的新思路,但现有的 MapReduce 计算模型以键值对的形式组织和处理数据,并不适合处理时空数据模型。 此外,Hadoop 技术无法有效支持数据挖掘中监督学习所用的迭代式计算方法,因而也无法完全满足时空数据分析的需要。
另一方面,时空数据本质上是非结构化的数据,不仅包含时序数据模型,还存在图模型, 例如道路网络等。 基于图模型的算法时间复杂度通常比较大,对于海量数据而言,即使是 O(N)的复杂度也无法承受。
所以学术界和工业界必须研究面向大规模时空数据的新的数据存储管理和索引技术,以应对时空大数据的挑战。

2.时空数据融合

时空数据结构复杂且来源多样,整合、清洗和转换不同来源的时空数据对于数据挖掘研究至关重要。
现有的时空数据主要来源于 GPS、遥感和传感器等设备,每种设备生成的数据格式和数据形式各不相同。 此外,现有的时空数据也不再局限于传统的数据形式,尤其是互联网的蓬勃发展,在文字、音频和视频等多 媒体数据中同样包含了丰富的时空数据。 例如,广泛覆盖城市的监控摄像头,记录了道路车辆的轨迹信息, 从视频中可以还原出被监控车辆的移动轨迹。
所以,对时空数据进行有效整合、清洗、转换和提取是时空数据预处理面临的重要问题。

3.理论框架

与传统数据挖掘相比,时空数据挖掘研究还远未成熟,目前还缺乏一个令人满意的时空数据挖掘理论框架。 构建时空数据挖掘理论框架,一方面可更好地理解时空模式需要具备的表达能力,另一方面有助于提出更有效的实现技术。
理论框架应该解决以下问题:有哪些相关的模式需要挖掘;如何对这些模式进行分类;如何找到适合这些任务的挖掘算法等。

4.时空推理和数据挖掘的深度结合

可度量的和不可度量的空间关系以及时间关系都需要在数据挖掘中加以考虑。 然而这些时空关系往往是隐含在时空数据中的,这就需要在数据挖掘系统中结合时空推理以处理这些复杂的时空关系。

更多推荐