logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Buckwalter Arabic Morphological Analyzer Version 1.0数据集介绍,官网编号LDC2002L49

Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0)是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集,核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注,是阿拉伯语 NLP 早期研究的基础资源,被广泛用于阿拉伯语树库(ATB)构建与形态分析模型训练。

#python#java#算法 +2
West Point Arabic Speech数据集介绍,官网编号LDC2002S02

West Point Arabic Speech(常称 West Point Arabic Speech Corpus,LDC 目录编号 LDC2002S06)是 LDC 发布的现代标准阿拉伯语(MSA)语音识别专用语料库,由美国西点军校主导构建,核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究,是早期 MSA 语音资源的标杆。

#算法#python#java +2
The AQUAINT Corpus of English News Text数据集介绍,官网编号LDC2002T31

The AQUAINT Corpus of English News Text(AQUAINT 英语新闻文本语料库,LDC2002T31)是由美国国家标准与技术研究院(NIST)资助、语言数据联盟(LDC)发布的大规模英语新闻专线语料库,核心用于信息检索、文本摘要、NLP 模型预训练与评测,是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详

#人工智能#机器学习#深度学习 +4
1997 HUB5 Arabic Transcripts数据集介绍,官网编号LDC2002T39

1997 HUB5 Arabic Transcripts(1997 HUB5 阿拉伯语对话转录数据集,LDC2002S22)是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料,为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据,专注埃及阿拉伯口语(ECA),用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细

#语音识别#python#java +2
Multiple-Translation Chinese (MTC) Part 2数据集介绍,官网编号LDC2003T17

Multiple-Translation Chinese (MTC) Part 2(LDC2003T17)是 LDC 发布的中英翻译评测基准数据集,核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化,适配 NLP 翻译评测算法研发与模型调优。

#python#java#算法 +2
TIDES Extraction (ACE) 2003 Multilingual Training Data数据集介绍,官网编号LDC2004T09

TIDES Extraction (ACE) 2003 Multilingual Training Data(常称 ACE 2003 多语言训练数据,LDC 编号 LDC2003E14、LDC2003E15、LDC2003E16)是 LDC 为 DARPA TIDES 与 ACE 评测打造的多语言信息抽取基准数据集,覆盖英、中、阿 3 种语言,含实体、关系、事件等核心标注,适配跨语言信息抽取、命名

#数据结构#人工智能#机器学习 +2
RT-03 MDE Training Data Text and Annotations数据集介绍,官网编号LDC2004T12

RT-03 MDE Training Data Text and Annotations(RT-03 MDE 文本与标注训练数据,LDC2003S08、LDC2003T15)是 LDC 为 DARPA RT-03 评测构建的口语元数据抽取(MDE)训练资源,含广播新闻(BN)与电话会话(CTS)的文本及多层标注,适配口语边界检测、填充词识别、说话人角色标注等语音与 NLP 交叉任务,是早期口语处理

#数据结构#人工智能#机器学习 +2
West Point Company G3 American English Speech数据集介绍,官网编号LDC2005S30

West Point Company G3 American English Speech(LDC96S36)是美国西点军校 G3 连队构建、LDC 于 1996 年发布的美式英语朗读语音数据集,核心为 24 名美国英语母语者(G3 连队学员)录制的约 10.5 小时高保真语音,含 6000 + 句孤立词 / 短语 / 连续句,标注含正字法转录与发音词典,适配声学模型训练、说话人识别、军事语音技术

#语音识别#算法#python +2
CSLU: Multilanguage Telephone Speech Version 1.2数据集介绍,官网编号LDC2006S35

CSLU: Multilanguage Telephone Speech Version 1.2 是由美国俄勒冈健康与科学大学口语理解中心(CSLU)构建、LDC 于 2006 年发布的多语种电话语音数据集(编号 LDC2006S35),核心用于多语种电话语音识别(ASR)、语言识别与鲁棒性算法研发,数据源自真实电话信道,覆盖 21 种语言,适配低资源语种语音技术冷启动与跨语种模型训练。

#语音识别#数据结构#算法 +2
TDT5 Topics and Annotations数据集介绍,官网编号LDC2006T19

TDT5 Topics and Annotations(LDC2006T19)是 LDC 于 2006 年发布的,与 TDT5 Multilingual Text(LDC2006T18)搭配使用,为 2004 年 NIST TDT 评测提供话题定义、标准标注与评测基准,核心用于话题检测、跟踪、关联等任务的算法评估与模型训练,是 TDT 领域关键的标注资源。以下从核心信息、内容构成、标注体系、应用价

#自然语言处理#人工智能#数据结构 +3
    共 18 条
  • 1
  • 2
  • 请选择