第一章 可视化数据挖掘概述

 

可视化数据挖掘技术对于大多数人来说是一个陌生的事物,让读者在较短的时间内快速熟悉它就是本书第1章的任务。本书会从基础知识讲起,由浅至深,逐步介绍可视化数据挖掘的知识。

研究数据的方法有很多,比如利用统计方法计算数据的平均值和标准差、使用模型拟合数据。数据通常是大量的,人脑难以直接把握其中的信息。研究数据的最终目的是减少海量数据的信息量,将数据中的信息客观地展示出来,并最终整理成简单的、人脑可以掌握的知识。

1.1  数据可视化

图形是直观呈现数据的方法,然而,将大量数据在同一个图表中画出来并不容易。数据可视化就是研究利用图形展现数据中隐含的信息并发掘其中的规律的学科。它是一门横跨计算机、统计、心理学的综合学科,并随着数据挖掘和大数据的兴起而进一步繁荣。

数据可视化的历史可以追溯到20世纪50年代计算机图形学的早期,人们利用计算机创建了首批图形图表。到了1987年,一篇题为Visualization in Scientific Computing(科学计算之中的可视化,即科学可视化)的报告成为数据可视化领域发展的里程碑,它强调了新的基于计算机的可视化技术方法的必要性。

随着人类采集数据种类和数量的增加,以及计算机运算能力的提升,高级的计算机图形学技术与方法越来越多地应用于处理和可视化这些规模庞大的数据集。20世纪90年代初期,“信息可视化”成为新的研究领域,旨在为许多应用领域中对于抽象的异质性数据集的分析工作提供支持。

当前,数据可视化是一个既包含科学可视化,又包含信息可视化的新概念。它是可视化技术在非空间数据上新的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及数据之间的结构关系。

数据可视化是关于数据的视觉表现形式的研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。

数据可视化技术的基本思想是将数据库中的每个数据项作为单个图元元素表示,大量数据构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

在大数据时代,数据可视化工具必须具有以下新特性。

(1)实时更新:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须能快速地收集和分析数据,并对数据信息进行实时更新。

(2)操作简单:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点。

(3)多维度展现:数据可视化工具需要具有更丰富的展现方式,能充分满足数据展现的多维度要求。

(4)多种数据源:数据的来源不仅限于数据库,还支持数据仓库和文本数据等多种数据源,并能够通过互联网进行展现。

数据可视化的思想是将数据库中的每个数据项作为单个图元元素,通过抽取的数据构成数据图像,同时将数据的各个属性值加以组合,并以多维数据的形式通过图表、三维等方式来展现数据之间的关联信息,使用户能从不同的维度及不同的组合对数据库中的数据进行观察,从而对数据进行更深入的分析和挖掘

Tableau是桌面系统中最简单的商业智能工具软件之一,它不强迫用户编写自定义代码,新的控制台可完全自定义配置。Tableau控制台灵活,具有高度的动态性,不仅能够监测信息,而且能够提供完整的分析功能。

Tableau产品主要有:Tableau Public、Tableau Desktop、Tableau Online、Tableau Server、Tableau Mobile和嵌入式分析等。

其中,Tableau Public是Tableau的免费版本。它需要一些结构化的数据,也需要用户懂一些BI。不过类似于可以拖曳这样的操作,对于那些想尝试的用户来说,还是比较方便的。Tableau Public作为服务交付,可以立刻启动并运行。它可以连接到数据,创建交互式数据可视化内容,并将其直接发布到自己的网站。Tableau Pulic通过所发现的数据内在含义来引导用户,让他们与数据互动,而这一切不用编写一行代码即可实现。

Tableau Desktop是基于斯坦福大学突破性技术的软件应用程序,可以分析实际存在的任何结构化数据,能够在几分钟内生成美观的图表、坐标图、仪表盘与报告。利用Tableau简便的拖放式操作,可以自定义视图、布局、形状、颜色等,帮助用户展现自己的数据视角。

“所有人都能学会的业务分析工具”,这是Tableau官网上对Tableau Desktop的描述。确实,Tableau Desktop简单、易用,是该软件最大的特点,使用者不需要精通复杂的编程和统计原理,只需要把数据直接拖放到工具簿中,通过一些简单的设置就可以得到想要的可视化图形。

所以,Tableau Desktop的学习成本很低,使用者可以快速上手,这对日渐追求高效率和成本控制的企业来说无疑具有巨大的吸引力,特别适合日常工作中需要绘制大量报表、经常进行数据分析或需要制作图表的人。

在2014年3月进行的一项有关数据可视化的调查显示,已经部署数据可视化应用的企业仅为15%,但有56%的企业计划在1~2年内部署相关应用。从企业部署数据可视化应用的目的来看,排在前三位的分别为:通过数据可视化发现数据的内在价值(36%)、满足高层领导的决策需要(30%)和满足业务人员的分析需要(25%)。仅有9%的企业选择需要更美观的展现效果。

在针对Tableau、Qlik、Tibco software、SAS、Microsoft、SAP、IBM和Oracle八家数据可视化产品和服务提供商的调查中,分别从知名度、流行度和领导者三个角度进行分析。从知名度来看,八家厂商几乎不分先后,只有微小的差距;从流行度来看,SAP、IBM和SAS占据前三位,所占比例分别为19%、18%和17%;从领导者来看,Tableau以40%的优势遥遥领先。

QlikView是一个完整的商业分析软件,使开发者和分析者能够构建和部署强大的分析应用。QlikView应用使各种终端用户以一个高度可视化、功能强大和创造性的方式,互动分析重要业务信息。

QlikView是一个具有完全集成的ETL工具的向导驱动的应用开发环境、考虑到无限钻取的强大AQL分析引擎,以及高度直觉化的、使用简单的用户界面。QlikView让开发者能从多种数据库里提取和清洗数据,建立强大、高效的应用,而且能够使它们被Power用户、移动用户和终端用户修改后使用。

QlikView是一个可升级的解决方案,完全利用了基础硬件平台,用上亿行的数据记录进行业务分析。QlikView由以下部分组成:开发工具(QlikView Local Client)、服务器组件(QlikView Server)、发布组件(QlikView Publisher)和其他应用接口(SAP、Salesforce、Informatica)。服务器支持多种方式发布,如Ajax客户端、ActiveX客户端,还可以与其他CS/BS系统进行集成。

1.1.3  Power BI

Power BI是一套业务分析工具,用于在组织中提供见解。它可连接数百个数据源,简化数据准备工作并提供专门分析。它可生成美观的报表并进行发布,供用户在Web和移动设备上使用。每个人都可创建个性化仪表板,获取针对其业务的全方位独特见解。它可在企业内实现扩展、内置管理和安全功能。

Power BI是一种基于云的业务分析服务,可为用户提供关键业务数据的单一视图。它使用实时仪表板监视用户的业务运行状况,使用Power BI Desktop创建丰富的交互式报告,以及使用本机 Power BI Mobile 应用在旅途中访问用户的数据,轻松、快速且免费。

Power BI的产品主要有:Power BI、Power BI Desktop、Power BI Premium、Power BI Mobile、Power BI Embedded和Power BI ReportServer。

Power BI具有如下特征。

(1)在一个窗格中查看所有内容

Power BI将用户所有的本地信息和云信息集中在一个中心位置,用户可以随时随地访问,也可以使用预封装的内容包和内置连接器快速从解决方案(如 Marketo、Salesforce、Google Analytics及更多)中导入用户的数据。

(2)让细节更生动

Power BI通过令人惊叹的可视化效果和交互式仪表板,提供企业的合并实时视图。Power BI Desktop提供不限形式的画布供用户拖放数据进行浏览,并提供大量交互式可视化效果、简易报表创建及快速发布到Power BI服务的库,非常适合分析师使用。

(3)将数据转换为决策

借助Power BI,用户可以使用简单的拖放操作轻松与数据进行交互,以发现趋势,并可使用自然语言进行查询,快速获得答案。

(4)共享无数见解

Power BI使用户在任何地方都可与任何人共享仪表板和报表。通过适用于Windows、iOS和Android的Power BI应用,始终掌握最新信息。警报将通知用户数据中的任何更改,以便与团队一起采取相应措施。

(5)在网站或博客上分享见解

可以使用Power BI发布数据到Web端,数百万用户可以从任何位置、使用任何设备进行访问。Power BI可以合并数据源,轻松创建令人惊叹的可视化效果,并在几分钟内快速将内容嵌入网站。

1.2  可视化数据挖掘

利用可视化数据挖掘工具和技术,分析人员能够从全新的角度快速、轻松地检索信息,解决常见的商业问题。可视化数据挖掘使数据挖掘变得简单,非技术出身的业务经理们利用它能够更好地了解市场并做出明智的决策。

IBM SPSS Modeler是企业级的数据挖掘工作平台。它封装了先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。

IBM SPSS Modeler强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据中,帮助用户揭示隐藏在企业资源计划(ERP)、结构数据库、普通文件中的模式和趋势,让用户始终站在行业发展的前端,显著的投资回报率使得IBM SPSS Modeler在业界久负盛誉。

作为一个数据挖掘平台,SPSS Modeler结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。与那些仅重视模型的外在表现而忽略数据挖掘在整个业务流程中的应用价值的其他数据挖掘工具相比,SPSS Modeler功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大地提高了投资回报率。

为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,不同的任务类型和数据类型就要求有不同的分析技术。SPSS Modeler可以提供出色、广泛的数据挖掘技术,确保用户用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。即便改进业务的机会被庞杂的数据表格所掩盖,SPSS Modeler也能最大限度地执行标准的数据挖掘流程,为用户找到解决商业问题的最佳答案。

作为易操作的、拥有高级建模技术的数据挖掘软件,SPSS Modeler能够帮助用户发现和预测数据中有用的关系。SPSS Modeler提供了通向数据、统计量和复杂算法这个抽象世界的可视化窗口。其中每个步骤都由一个图标(节点)表示,将各个步骤连接即可形成一个“流”,表示数据沿各个步骤流动。图形化的操作环境简单明了,提高了软件的易用性,降低了用户的入门要求,同时也大大缩短了学习时间。

SPSS Modeler是一个开放式的数据挖掘工具,不但支持整个数据挖掘流程,从数据获取、转换、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准——CRISP-DM。SPSS Modeler的可视化数据挖掘使得“思路”分析成为可能,即将精力集中在要解决的问题本身,而不是局限于完成一些技术性工作(例如编写代码)。它提供了多种图形化技术,有助于用户理解数据之间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。

由美国IBM公司开发的数据挖掘软件IntelligentMiner是一个分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和IntelligentMiner for Text。

Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等。

Intelligent Miner for Text允许企业从文本信息中进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、LotusNotes数据库等。

IBMIntelligent Miner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,自动实现数据选择、数据转换、数据发掘和结果呈现一整套数据挖掘操作。若有必要,还可以对结果数据集重复这个过程,直至得到满意结果为止。现在,IBM的Intelligent Miner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。

IntelligentMiner采用了多种统计方法和挖掘算法,主要有:单变量曲线、双变量统计、线性回归、因子分析、主变量分析、分类、分群、关联、相似序列、序列模式和预测等。它能处理的数据类型有:结构化数据(如数据库表、数据库视图、平面文件)、半结构化或非结构化数据(如顾客信件、在线服务、传真、电子邮件、网页等)。

IBMDB2 Intelligent Miner for Text允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、Lotus Notes数据库、协定和专利库。它扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。其功能包括识别文档语言,建立姓名、用语或其他词汇的词典,提取文本的含义,将类似的文档分组并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索引擎和非常高效的Web文本搜索功能。系统支持的服务器平台包括AIX和Windows NT、OS/390和Sun Solaris。

此外,Intelligent Miner中的IBM DB2 Intelligent Miner Scoring使实时数据挖掘分析成为可能。它可以在交易发生时,不管是在商业智能、电子商务领域,还是在联机处理领域,直接对交易进行挖掘。作为DB2通用数据库的一个组件,它还可以使企业依据既定的标准对自己的用户进行归类。IBM DB2 Intelligent Miner Scoring Service直接将数据挖掘技术集成为相关的数据库管理系统,满足了应用程序开发、配置的快速增长,使应用程序运行速度更快。

Intelligent Miner的不足之处是在连接DB2以外的数据库(如Oracle、SAS、SPS )时需要安装DataJoiner作为中间软件。

SAS的全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编写。他们于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能仅限于统计分析。至今,统计分析功能仍是它的重要组成部分和核心功能。经过多年的发展,SAS已被全世界120多个国家和地区的近3万家机构所采用,直接用户超过300万人,遍及金融、医药卫生、生产、运输、通信、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在1996—1997年度被评选为建立数据库的首选产品,堪称统计软件界的“巨无霸”。

SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,管理用户的使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,必须首先启动BASE SAS模块。BASE SAS模块除本身具有的数据管理、程序设计及描述统计计算功能外,还是SAS系统的中央调度室。除可单独存在外,BASE SAS模块也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以通过增加如下不同的模块来增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)和SAS/AF(交互式全屏幕软件应用系统模块)等。SAS有一个智能型绘图系统,不仅能绘制各种统计图,还能绘制地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

SAS是由大型机系统发展而来的,其核心操作方式是程序驱动,其用户界面也充分体现了这个特点:采用MDI(多文档界面),用户在PGM视窗中输入程序,分析结果以文本的形式在OUTPUT视窗中输出。使用程序方式,用户可以完成所有工作,包括统计分析、预测、建模和模拟抽样等。但是,这使得初学者在使用SAS时必须学习SAS语言,入门比较困难。SAS的Windows版本根据不同的用户群开发了几种图形操作界面,这些图形操作界面各有特点,使用时非常方便。

SASEnterprise Miner是一种通用的数据挖掘工具,按照“抽样→探索→转换→建模→评估”的方法进行数据挖掘。它可以与SAS数据仓库和OLAP集成,实现从抽取数据、提炼数据到数据挖掘结果的全流程。
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐