版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

近日，数据堂发布全新数据产品，覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制，提供商业级使用授权且已获得科研使用许可，知识产权归属清晰可溯，可为企业及研发团队提供大规模、多样化、合规可靠的数据资源，有效助力大模型与AI技术迭代升级，赋能全球应用场景创新。

数据堂官方账号

854人浏览 · 2025-09-25 09:19:18

数据堂官方账号 · 2025-09-25 09:19:18 发布

近日，数据堂发布全新数据产品，覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制，提供商业级使用授权且已获得科研使用许可，知识产权归属清晰可溯，可为企业及研发团队提供大规模、多样化、合规可靠的数据资源，有效助力大模型与AI技术迭代升级，赋能全球应用场景创新。

在这里插入图片描述

大模型预训练数据集

在这里插入图片描述

319,214册K12课件PPT数据

与专业教师合作PPT数据，数据包括小初高各年级和不同的学科。PPT数据格式为ppt和pptx，图像数据格式为jpg、jpeg等通用格式。每份PPT包括整份PPT数据和PPT拆解成单张图片数据2个部分。本数据可用于PPT生成等任务。

☞点击获取数据样例。

10万条英文大模型指令微调文本数据集

包含多种类型问答对，例如提问、提取、计算、分类、摘要等。专为AI模型优化设计的训练数据，可显著提升模型指令理解与执行能力，通过语言学专家和AI工程师双重校验，支持主流预训练模型的微调需求。

☞点击获取数据样例。

多模态大模型数据集

在这里插入图片描述

2.88亿组3D模型和场景数据

包括2.7亿组3D模型和1800万组3D场景数据，其中3D模型覆盖静态模型、交互模型和物理增强模型等多种类型和室内家居环境的各类物体，3D场景覆盖家居场景和商业空间场景，支持部件结构信息标注、静态模型新增、交互模型升级、模型位置调整等增值项。可用于3D资产生成、仿真训练场构建等任务。

☞点击获取数据样例。

8000万张矢量图图像数据

均为作者发布的正版图像作品。资源类型丰富多样，涵盖海报、花型、卡通、背景、插画、科技、图标、人物、扁平、办公素材等50多种类别。色彩还原度高，细节展现充分，能为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持，助力相关工作高效开展。

☞点击获取数据样例。

20万组多国地标建筑图文数据

每组数据包含一张图片及中英文描述文档。国家分布不少于20个，包括中、美、英、法、俄、德等国家。每个地标对应1～10张图片，包括不同角度、不同距离、不同时间段的地标信息。地标建筑类型多样，包含商业大厦、古老建筑、纪念碑、图书馆、景点等。标注内容包括地标国家、地标城市、地标具体地点、地标分类、地标描述。

☞点击获取数据样例。

多语种&方言语音数据集

在这里插入图片描述

3000小时全双工普通话自然对话语音数据

约3600名录音人，男女比例均衡，覆盖多个年龄段。无预制文本，录音人围绕话题以自然方式进行对话，同时录制对话的内容。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性，准确性高，为语音识别相关研究及应用提供了丰富的资源。参与项目的录音人员均已签订数据使用授权协议。

☞点击获取数据样例。

1300小时古吉拉特语脚本对话语音数据

16kHz，16bit，未压缩wav，单声道。部分数据是基于给定的脚本对话，部分数据是双人轮流按单句/多句来朗读文章。标注内容包含文本转写、说话人标识、性别、噪音。文本转写的词错误率（WER）低于5%。可用于语音识别声学、语言模型训练或算法研究。

☞点击获取数据样例。

10小时全双工瑞典语自然对话手机采集语音数据

均由本土发音人进行录制。录制于相对安静的室内，无回声。给出话题列表，录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然，围绕每个话题展开一段对话并录制。标注内容包括文本转写、时间戳、说话人ID、说话人性别。词准确率达98%。

795小时墨西哥西语口语化语音数据

16kHz，16 bit， wav，单声道。人工筛选并二次加工的数据。说话语气自然，涵盖多种日常口语化的表述内容，覆盖对话类、自媒体类等通用领域，反映了真实世界的互动情境。此数据集标注了文本内容、说话人身份、性别等多种属性，词错误率（WER）低于2%，准确性高，易用性强，为语音识别相关研究及应用提供了丰富的资源。

☞点击获取数据样例。

4人中文高表现力旁白平均音色合成库

专业声优参与录制。给定书籍，发音人以具有高表现力旁白的风格朗读。同一个录音人的数据，录音环境和设备自始至终保持不变。根据发音人实际发音对音频进行文本转写、韵律层级标注、情感标注及副语言标注。字准确率不低于99.9%。

☞点击获取数据样例。

5小时武汉方言男声合成库

由武汉当地专业男声声优参与录制。录音内容包含发音人自由发挥、指定文本的多种话题、语气词、中英混及英文单词。录音棚符合专业音库录制标准，噪音小于30db，混响时间小于0.1s。标注内容包括普通话标注、方言标注、方言拼音标注。专业语音学家参与标注，精准匹配语音合成的研发需求。

☞点击获取数据样例。

5小时长沙方言女声合成库

长沙本土专业声优在专业录影棚环境下使用专业录音设备及软件进行录制。录音人员使用长沙方言、普通话、中英混和英文进行录制。录音内容包含无文本自由发挥（dialect）、指定文本的多话题（dialect）、语气词（dialect）、中英混及英语单词。文字标注字准确率不低于99.9%，副语言标注句准确率不低于98%。

☞点击获取数据样例。

计算机视觉训练数据集

在这里插入图片描述

500,000张21国自然场景&文档拍照场景&电子场景OCR标注数据

数据包含德语、法语、葡萄牙语、意大利语、西班牙语、印尼语、俄语、日语、韩语、越南语、波兰语、捷克语、土耳其语、菲律宾语、荷兰语、印地语等21个语种，每个语种数量20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。在标注方面，采用行（列）级四边形或多边形标注、行（列）级内容转写。

☞点击获取数据样例。

30,000张东南亚小语种自然场景OCR数据

包括高棉语（柬埔寨）、老挝语和缅甸语3种语言。采集环境涵盖标语、小票、海报、警示语、路标、食品包装、广告牌、站牌和招牌等多种自然场景、仰视、俯视、平视等多种拍摄角度。标注行（列）级四边形标注、行（列）级内容转写、多边形标注、内容转写。检测框精度不低于95%，文本转写精度不低于95%。

☞点击获取数据样例。

19,634段表情视频采集数据

数据涵盖男性女性共1800余人，每人采集表情视频数量为1-12段。年龄分布为少年到老人，以中青年为主。表情种类包括正常、微笑、大笑、露齿笑、伤心、恐惧、兴奋、生气、吐舌头、眨眼、张大嘴和眼珠转动翻白眼。标注采集人的性别和年龄标签，标注视频对应的表情ID标签。可用于人脸表情识别等任务。

☞点击获取数据样例。

52对双胞胎人脸采集数据

采集对象包括双胞胎男性19对，双胞胎女性33对，一对双胞胎每人分别采集40张照片。年龄涵盖18岁以下、18岁至60岁以上。数据均采集于室内场景，涵盖抬头、转头、正脸、低头等多种人脸角度、包含眼镜、帽子等多种佩戴物、暗光、正常光等多种光照条件。数据可用于双胞胎人脸识别等任务。

☞点击获取数据样例。

北京朝阳AI社区

更多推荐

cover

江苏线束制造业深度调研

北京朝阳AI社区

cover

行业首发！AI大模型落地32张高清架构图+案例拆解，技术/产品/运营人必备！

北京朝阳AI社区

字节开源的AI Coding Agent —— Trae Agent深入浅出

继承 Agent 或 TraeAgent 类重写相关方法，如 execute_task() , reflect_on_result() , is_task_completed()

北京朝阳AI社区

所有评论(0)

查看更多评论

数据堂官方账号

@weixin_44532659

已为社区贡献3条内容