logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Switchboard Automatic Identification Database数据集介绍,官网编号LDC2003T10

核心为电话信道下的说话人识别 / 确认与语音检索基准语料,用于训练和评测说话人识别、语音检索、话者分割等模型,由 DARPA EARS 项目支持构建。

#人工智能#自然语言处理#python +2
Arabic Gigaword数据集介绍,官网编号LDC2003T12

Arabic Gigaword 是 LDC 发布的大规模现代标准阿拉伯语(MSA)新闻语料库,核心用于语言模型预训练、机器翻译、文本分类等 NLP 任务,有两个主要版本,第五版(LDC2011T11)为较新且常用版本。

#人工智能#自然语言处理#深度学习 +2
RT-03 MDE Training Data Speech数据集介绍,官网编号LDC2004S08

RT-03 MDE Training Data Speech(LDC2004S08)是 LDC 为 DARPA EARS 计划 RT-03 评测发布的广播新闻语音元数据提取(MDE)训练集,含约 20 小时标注音频与文本,适配句边界、填充词、说话人分割等 MDE 任务,是英文广播新闻语音元数据建模的核心基准资源。

#语音识别#深度学习#人工智能 +2
Arabic News Translation Text Part 1数据集介绍,官网编号LDC2004T15

Arabic News Translation Text Part 1(LDC2004T15)是 LDC 发布的阿拉伯语 - 英语新闻翻译平行文本语料库,以阿拉伯语新闻专线文本为源语、人工翻译的英语文本为目标语,提供句级对齐的高质量双语文本,适配机器翻译、双语对齐、阿拉伯语 NLP 模型训练等任务,是早期阿拉伯语 - 英语翻译资源的重要基准。

#深度学习#人工智能#语音识别 +2
RT-04 MDE Training Data Speech数据集介绍,官网编号LDC2005S16

RT-04 MDE Training Data Speech(LDC2005S16,RT-04 MDE Training Data V1.2)是 LDC 为 DARPA EARS 项目 RT-04(Rich Transcription 2004)MDE(Meeting/Diarization/Extraction)任务构建的英文电话语音训练数据集,核心为 40 小时会话语音与配套 MDE 标注,适

#人工智能#语音识别#深度学习 +2
CSLU: Voices数据集介绍,官网编号LDC2006S01

CSLU: Voices(LDC2006S01)是由 Alexander Kain 开发、LDC 发布的英语朗读语音数据集,核心用于高分辨率语音转换(VT)研究,含约 2 小时语音及文本、喉电图、基频标记、音素标注等配套数据。

#语音识别#人工智能#python +2
Iraqi Arabic Conversational Telephone Speech & Transcripts数据集介绍,官网编号LDC2006S45、LDC2006T16

Iraqi Arabic Conversational Telephone Speech & Transcripts(核心 LDC 编号 LDC2006S45,配套文本转录 LDC2006T16)是 LDC 于 2006 年发布的伊拉克阿拉伯语电话会话语料库,由 Appen 采集标注,核心用于伊拉克阿拉伯语方言的 ASR、说话人识别、口语理解与机器翻译模型训练,包含约 25 小时真实电话会话语音及

#人工智能#深度学习#python +2
Prague Dependency Treebank 2.0数据集介绍,官网编号LDC2006T01

Prague Dependency Treebank 2.0(PDT 2.0)是布拉格查理大学形式与应用语言学研究所(ÚFAL)于 2006 年发布的捷克语深层依存树库,基于功能生成描述(FGD)理论构建,含约 200 万词捷克语文本,覆盖形态、句法、语义三层手动标注,核心用于捷克语 NLP 的句法分析、语义角色标注、指代消解与依存解析模型研发,是捷克语最具影响力的语言学资源之一。

#人工智能#python#深度学习 +2
Arabic Gigaword Second Edition数据集介绍,官网编号LDC2006T02

Arabic Gigaword Second Edition(LDC2006T02)是 LDC 于 2006 年发布的大规模阿拉伯语新闻专线文本语料库,核心用于统计机器翻译、语言模型预训练、信息检索与抽取等 NLP 任务,是早期阿拉伯语大语言数据的核心基准资源,规模达 15 亿词级,覆盖多权威新闻源与跨年度时序数据。

#语音识别#人工智能#python +2
ACE 2005 Multilingual Training Corpus数据集介绍,官网编号LDC2006T06

ACE 2005 Multilingual Training Corpus(LDC2006T06)是 LDC 发布于 2006 年的多语言信息抽取基准数据集,为 ACE 2005 技术评测提供英、阿、中三语训练数据,核心用于实体、关系、事件的标注与模型训练,是信息抽取领域经典资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。

#深度学习#人工智能#机器学习 +3
    共 28 条
  • 1
  • 2
  • 3
  • 请选择