数据资源 | 为什么要做数据清洗？

大数据时代，产生的数据多以非结构化数据为主，由于非结构化数据并不能直接为研究所用，因此多数情况下，需要将非结构结构化数据转化成结构化数据，而在这个过程中，就存在必要的数据清洗，将其转化成符合研究的数据格式。

企研数据

2494人浏览 · 2023-04-06 09:25:23

企研数据 · 2023-04-06 09:25:23 发布

查看原文：【数据seminar】https://mp.weixin.qq.com/s/oWW3qdMxkzqqdwLUovK39g

Part 1

在回答这个问题之前，先讲讲数据的分类。通常我们所用的数据中，可以分为两类，一类是结构化数据(Structured Data)，另一类是非结构化数据(Unstructured Data)。

结构化数据：信息能够用数据或统一的结构加以表示（通常可以使用关系型数据库表示和存储，表现为二维形式的数据），称之为结构化数据，如存储在excel里的数据。

图源吴恩达老师deeplearning课程slides

非结构化数据：信息无法用数字或统一的结构表示，称之为非结构化数据。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

图源吴恩达老师deeplearning课程slides

此外，还有介于结构化数据与非结构化数据之间的半结构化数据(Semi-Structured Data)。其介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据。通常数据具有结构，但却不方便模式化。典型的半结构化数据为包括日志文件、XML文档、JSON文档、Email等。

Part 2

广义上的数据清洗是指对数据的全流程操作，具体包括数据抓取、提取、收集、筛选、增加、删除、修改、重组等一系列对数据的操作。

狭义上的数据清洗，是指将无效、错误的数据剔除掉，留下干净的数据的过程，涉及到对原有数据的删除、添加、分解、重组等内容。即去除冗余、消除噪音和错误及不一致的过程。

大数据时代，产生的数据多以非结构化数据为主，由于非结构化数据并不能直接为研究所用，因此多数情况下，需要将非结构结构化数据转化成结构化数据，而在这个过程中，就存在必要的数据清洗，将其转化成符合研究的数据格式。一个典型的案例就是在股票网站的新闻评论中提取语气词用以分析投资者情绪（沈艳、覃飞、陈赟，2020）。

数据清洗十分重要，大多数学者及学生都有这样的经历，在实证研究中，往往是搜集数据和数据清洗的过程中会花费大量时间，在真正写作的过程中反而花的时间更少。《纽约时报》更是直言数据清洗是看门人工作，数据科学家百分之八十的时间都花费在了这些清洗任务上。

大到整个信息海洋，小到一份简单的财务报表信息，不同的研究领域，不同的研究方法都需要过滤掉无效信息数据后，才能利用剩余有效信息进行更符合主题的研究。在当今信息泛滥的时代，这种现象更是尤其突出。

数据清洗的重要性还体现在它直接影响了最终的研究结果。没有前期的数据清洗，后续的分析、建模等步骤将无从下手，即使强行进行，得到的结果也不一定准确。

Part 3

既然数据清洗如此重要，那么我们到底要对数据进行什么操作呢？

下图相信可以给大家一个较为清晰的印象。尽管具体的操作步骤在不同的数据源上有所差异，但大致思路总体不变，包含了数据格式、异常值、缺失值、逻辑关系等方面的清洗。

Part 4

既然数据清洗这么麻烦，所以如果有那种直接统计好的、格式标准化的数据，那么对学者而言实在是一个好消息。这不仅可以让学者使用更加规范的数据，还能节约学者花在数据清洗上的时间使得“好钢用在刀刃上”，有更多的精力投入科研创作。

此前，由企研数据团队重点打造的CCAD数据库就为用户推出了第一批清洗成果，希望能为学者科研之路扫清数据清洗方面的障碍。（传送门：CCAD | 第一批数据清洗成果及代码正式公开）。

当然，这还远远不够。行政大数据以及从互联网抓取的数据都充满了不少脏数据，若要将其应用到科研领域，大量的清洗工作不可避免。

由于大数据的清洗工作难度远超一般微观数据，动辄几千万甚至上亿条的数据量对于普通学者而言，既耗时又费力还不讨好。

于是，我们推出了企研·学术大数据平台，希望为科研、智库领域的学者提供一份力所能及的帮助。在数据清洗方面，请放心，我们是专业的！

企研·学术大数据平台由国家高新技术企业、专业为中国经济社会领域学术和智库研究提供大数据及相关配套服务的企研数据科技（杭州）有限公司负责开发。该大数据平台围绕重点学科领域或热点研究专题构建微观数据和统计数据、行政数据和行业数据，以及原始数据与构建变量相结合的专题数据库，为从事学术和智库研究的学者提供可靠、干净和持续更新的专题数据产品。

目前，该平台主要涵盖了CCAD、TFID两大专题数据库的统计数据以及其他公共数据资源，通过简单的筛选就可获得统计数据。