2401_82807501 个人主页

@2401_82807501

2401_82807501

2025-04-27 16:40:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Switchboard Automatic Identification Database数据集介绍，官网编号LDC2003T10

核心为电话信道下的说话人识别 / 确认与语音检索基准语料，用于训练和评测说话人识别、语音检索、话者分割等模型，由 DARPA EARS 项目支持构建。

#人工智能 #自然语言处理 #python +2

Arabic Gigaword数据集介绍，官网编号LDC2003T12

Arabic Gigaword 是 LDC 发布的大规模现代标准阿拉伯语（MSA）新闻语料库，核心用于语言模型预训练、机器翻译、文本分类等 NLP 任务，有两个主要版本，第五版（LDC2011T11）为较新且常用版本。

#人工智能 #自然语言处理 #深度学习 +2

RT-03 MDE Training Data Speech数据集介绍，官网编号LDC2004S08

RT-03 MDE Training Data Speech（LDC2004S08）是 LDC 为 DARPA EARS 计划 RT-03 评测发布的广播新闻语音元数据提取（MDE）训练集，含约 20 小时标注音频与文本，适配句边界、填充词、说话人分割等 MDE 任务，是英文广播新闻语音元数据建模的核心基准资源。

#语音识别 #深度学习 #人工智能 +2

Arabic News Translation Text Part 1数据集介绍，官网编号LDC2004T15

Arabic News Translation Text Part 1（LDC2004T15）是 LDC 发布的阿拉伯语 - 英语新闻翻译平行文本语料库，以阿拉伯语新闻专线文本为源语、人工翻译的英语文本为目标语，提供句级对齐的高质量双语文本，适配机器翻译、双语对齐、阿拉伯语 NLP 模型训练等任务，是早期阿拉伯语 - 英语翻译资源的重要基准。

#深度学习 #人工智能 #语音识别 +2

RT-04 MDE Training Data Speech数据集介绍，官网编号LDC2005S16

RT-04 MDE Training Data Speech（LDC2005S16，RT-04 MDE Training Data V1.2）是 LDC 为 DARPA EARS 项目 RT-04（Rich Transcription 2004）MDE（Meeting/Diarization/Extraction）任务构建的英文电话语音训练数据集，核心为 40 小时会话语音与配套 MDE 标注，适

#人工智能 #语音识别 #深度学习 +2

CSLU: Voices数据集介绍，官网编号LDC2006S01

CSLU: Voices（LDC2006S01）是由 Alexander Kain 开发、LDC 发布的英语朗读语音数据集，核心用于高分辨率语音转换（VT）研究，含约 2 小时语音及文本、喉电图、基频标记、音素标注等配套数据。

#语音识别 #人工智能 #python +2

Iraqi Arabic Conversational Telephone Speech & Transcripts数据集介绍，官网编号LDC2006S45、LDC2006T16

Iraqi Arabic Conversational Telephone Speech & Transcripts（核心 LDC 编号 LDC2006S45，配套文本转录 LDC2006T16）是 LDC 于 2006 年发布的伊拉克阿拉伯语电话会话语料库，由 Appen 采集标注，核心用于伊拉克阿拉伯语方言的 ASR、说话人识别、口语理解与机器翻译模型训练，包含约 25 小时真实电话会话语音及

#人工智能 #深度学习 #python +2

Prague Dependency Treebank 2.0数据集介绍，官网编号LDC2006T01

Prague Dependency Treebank 2.0（PDT 2.0）是布拉格查理大学形式与应用语言学研究所（ÚFAL）于 2006 年发布的捷克语深层依存树库，基于功能生成描述（FGD）理论构建，含约 200 万词捷克语文本，覆盖形态、句法、语义三层手动标注，核心用于捷克语 NLP 的句法分析、语义角色标注、指代消解与依存解析模型研发，是捷克语最具影响力的语言学资源之一。

#人工智能 #python #深度学习 +2

Arabic Gigaword Second Edition数据集介绍，官网编号LDC2006T02

Arabic Gigaword Second Edition（LDC2006T02）是 LDC 于 2006 年发布的大规模阿拉伯语新闻专线文本语料库，核心用于统计机器翻译、语言模型预训练、信息检索与抽取等 NLP 任务，是早期阿拉伯语大语言数据的核心基准资源，规模达 15 亿词级，覆盖多权威新闻源与跨年度时序数据。

#语音识别 #人工智能 #python +2

ACE 2005 Multilingual Training Corpus数据集介绍，官网编号LDC2006T06

ACE 2005 Multilingual Training Corpus（LDC2006T06）是 LDC 发布于 2006 年的多语言信息抽取基准数据集，为 ACE 2005 技术评测提供英、阿、中三语训练数据，核心用于实体、关系、事件的标注与模型训练，是信息抽取领域经典资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。

#深度学习 #人工智能 #机器学习 +3

共 28 条

请选择