• 数据标注产业发展现状和机遇

数据标注作为数据产业发展的基础核心环节,其发展受益于国家大数据战略与人工智能战略的共同推动。近年来,我国各级政府在数据标注产业方面给予了较大的政策支持,全面、高质、快速推动数据标注产业的健康发展。

(一)“央地一体”的政策体系初步建设

1.国家层面,顶层设计不断完善

        一是总体谋划阶段。官方发文明确了发展数据标注产业的必要性和紧迫性,并列举了数据标注的多个关键处理流程。二是产业布局阶段。为加快推动数据标注产业发展,2024年4月1日,全国数据工作会议提出“探索建设数据标注基地”。国家数据局认真研究布局,确定了承担数据标注基地建设任务的省份,并由这些省份推荐,明确了所在省份承担数据标注基地建设任务的城市名单,分别为四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市。三是全面推动实施阶段。在标准能力建设方面,国家数据局规范高质量数据集格式和质量要求,明确数据标注的目标和对象。国家数据局以数据“供得出、流得动、用得好、保安全”为主线推动数据领域标准化建设。在人才队伍建设方面,国家数据局着力推动数字经济人才队伍建设,逐步解决数据标准高水平人才短缺的问题。在产业发展方面,国家数据局先后组织召开四次数据标注产业供需对接会,搭建政产学研用协同平台,推动数据标注产业供需精准对接,不断繁荣数据标注产业生态。

2.基地层面,示范引领效应凸显

        四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市等七个承担数据标注基地建设任务的城市作为推动数据标注产业发展的先行示范区,主动作为,在数据标注产业方面出台一系列相关政策。技术创新是数据标注智能化、高端化发展的核心驱动。高质量数据集建设是数据标注的重点目标。人才是数据标注产业发展的关键要素。优化产业布局是推动数据标注产业协同发展的重要路径。

         在7个基地的牵引带动下,北京市、天津市、广东省、湖北省、辽宁省、贵州省、陕西省、江苏省等20多个省市,积极培育和发展数据标注产业,为地方数字经济发展提供新动能。

3.地方层面,产业生态加快建设

       各级地方政府积极出台规划文件和扶持政策,以人工智能基础数据服务为切入点,寻求人工智能及数据标注产业的参与机会。建设数据标注服务平台,推动技术创新突破。建设航务高质量数据集,赋能行业发展。带动地方就业,培育高端标注人才。完善安全体系,确保数据安全合规。各地方把数据安全作为数据标注基地建设的红线,建立数据分级分类安全保护制度,搭建数据标注安全生产环境,构建数据安全风险防控体系,推动常态化、规范化的数据安全运营。再次基础上,各地进一步加强数据安全技术的研发与应用,如采用区块链、数字水印等先进技术,确保数据的可追溯性、完整性和安全性,有效阻止数据篡改、损坏和泄漏问题。)出台数据标注政策,引领区域数据标注产业发展。

(二)大模型蓬勃发展带来新的数据标注需求

1.大模型数据需求呈海量增长 

       纵观国际主流大模型,训练数据规模增长近万倍。如图所示。

        与传统人工智能相比,大模型在数据需求和数据维度上都有显著不同。首先,大模型通常需要大量数据来实现良好的性能,其训练所需的原始数据规模通常在TB至数百TB之间,但在训练之前,需将文本等原始数据进行token化处理。其次,大模型的数据来源极为丰富,涵盖文本、图片、音频和视频等多种形式,包含海量的知识信息,涉及各类专业领域和多种语言。依托多样化的数据,大模型具备强大的通用能力和迁移能力,能够应对更广泛的任务和场景。

2.大模型数据标注需求呈现新特点 

        大模型的数据标注需求贯穿全生命周期,各阶段呈现显著差异。预训练阶段,标注需求侧重于海量弱标注或无监督数据的清洗与去噪,目的是增强模型泛化能力;监督微调阶段要求高质量指令数据的精准标注,标注过程需要平衡专业性与多样性;强化学习阶段依赖人类偏好反馈标注,需通过对比排序、质量评分等复杂标注建立奖励机制;持续学习阶段的数据标注更强调动态更新能力,需建立增量数据标注机制,实时捕获新场景、新术语并优化标注策略。)

        大模型对标注数据质量要求不断提升。原因在于模型规模扩大带来的误差放大效应。因此,高质量标注需满足四大核心标准:其一,事实准确性,要求专业领域数据由具备资质的标注员完成;其二,语义一致性,需建立跨场景的标注规范体系,确保相似语境下的标注标准统一;其三,价值安全性,需构建包含伦理审查、内容过滤的多层校验机制,特别是在涉及文化敏感、政治倾向等数据时;其四,场景完备性,要求标注数据覆盖长尾场景,如法律文书中的特殊条款标注需结合具体司法实践。

       大模型落地工程化需求对数据工程提出更高的要求。首先,标注系统需支持超大规模并发处理,其次,构建动态评估体系。

3.DeepSeek开启数据标注的新范式 

       DeepSeek-R1模型在后训练阶段大规模使用了强化学习技术。该模型团队在仅有极少数据的情况下,将数据标注视为提升模型性能的核心因素之一,深入到数据标注的每一个环节,确保每一条数据的精准和高效。DeepSeek开启了数据标注的以下三个新范式:自动生成高质量数据集减少传统数据标注需求;数据蒸馏+人类协同技术提升数据标注质量和效率;强化学习新范式聚焦高质量推理型数据集。

(三)数据标注行业与市场蓬勃发展

         数据标注产业起源于1984年,旨在实现纸质内容电子化。2005年以后,中国企业逐步涉足标注产业,尤其是2010年以后,随着人工智能产业的加速发展,新应用、新场景不断涌现,其海量数据需求持续为包括数据标注在内的人工智能产业链上下游企业带来巨大的发展红利。专业数据服务提供商和头部互联网等数据标注商,以人工标注方式为主,对文本、图像、语音、视频和3D点云进行标注,标注市场规模呈现出逐年扩大特点。

1.数据标注国内外发展情况 

        从行业供给情况来看,全球数据标注行业企业主要分布在北美、欧洲、亚太等地区,但具有一定规模的企业数量相对较少。

2.数据标注基地产出情况

       我国七个数据标注基地分别位于四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定和山西大同,据数据标注基地先行先试现场会数据显示,七个数据标注基地数据标注总规模达到17282TB

PS:以上主要内容来自《2025年数据标注产业发展研究报告》节选

Logo

欢迎大家加入成都城市开发者社区,“和我在成都的街头走一走”,让我们一起携手,汇聚IT技术潮流,共建社区文明生态!

更多推荐