LinguisticData 个人主页

@LinguisticData

LinguisticData

2025-08-21 10:56:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Buckwalter Arabic Morphological Analyzer Version 1.0数据集介绍，官网编号LDC2002L49

Buckwalter Arabic Morphological Analyzer Version 1.0（BAMA 1.0）是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集，核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注，是阿拉伯语 NLP 早期研究的基础资源，被广泛用于阿拉伯语树库（ATB）构建与形态分析模型训练。

#python #java #算法 +2

West Point Arabic Speech数据集介绍，官网编号LDC2002S02

West Point Arabic Speech（常称 West Point Arabic Speech Corpus，LDC 目录编号 LDC2002S06）是 LDC 发布的现代标准阿拉伯语（MSA）语音识别专用语料库，由美国西点军校主导构建，核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究，是早期 MSA 语音资源的标杆。

#算法 #python #java +2

The AQUAINT Corpus of English News Text数据集介绍，官网编号LDC2002T31

The AQUAINT Corpus of English News Text（AQUAINT 英语新闻文本语料库，LDC2002T31）是由美国国家标准与技术研究院（NIST）资助、语言数据联盟（LDC）发布的大规模英语新闻专线语料库，核心用于信息检索、文本摘要、NLP 模型预训练与评测，是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详

#人工智能 #机器学习 #深度学习 +4

1997 HUB5 Arabic Transcripts数据集介绍，官网编号LDC2002T39

1997 HUB5 Arabic Transcripts（1997 HUB5 阿拉伯语对话转录数据集，LDC2002S22）是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料，为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据，专注埃及阿拉伯口语（ECA），用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细

#语音识别 #python #java +2

Multiple-Translation Chinese (MTC) Part 2数据集介绍，官网编号LDC2003T17

Multiple-Translation Chinese (MTC) Part 2（LDC2003T17）是 LDC 发布的中英翻译评测基准数据集，核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化，适配 NLP 翻译评测算法研发与模型调优。

#python #java #算法 +2

TIDES Extraction (ACE) 2003 Multilingual Training Data数据集介绍，官网编号LDC2004T09

TIDES Extraction (ACE) 2003 Multilingual Training Data（常称 ACE 2003 多语言训练数据，LDC 编号 LDC2003E14、LDC2003E15、LDC2003E16）是 LDC 为 DARPA TIDES 与 ACE 评测打造的多语言信息抽取基准数据集，覆盖英、中、阿 3 种语言，含实体、关系、事件等核心标注，适配跨语言信息抽取、命名

#数据结构 #人工智能 #机器学习 +2

RT-03 MDE Training Data Text and Annotations数据集介绍，官网编号LDC2004T12

RT-03 MDE Training Data Text and Annotations（RT-03 MDE 文本与标注训练数据，LDC2003S08、LDC2003T15）是 LDC 为 DARPA RT-03 评测构建的口语元数据抽取（MDE）训练资源，含广播新闻（BN）与电话会话（CTS）的文本及多层标注，适配口语边界检测、填充词识别、说话人角色标注等语音与 NLP 交叉任务，是早期口语处理

#数据结构 #人工智能 #机器学习 +2

West Point Company G3 American English Speech数据集介绍，官网编号LDC2005S30

West Point Company G3 American English Speech（LDC96S36）是美国西点军校 G3 连队构建、LDC 于 1996 年发布的美式英语朗读语音数据集，核心为 24 名美国英语母语者（G3 连队学员）录制的约 10.5 小时高保真语音，含 6000 + 句孤立词 / 短语 / 连续句，标注含正字法转录与发音词典，适配声学模型训练、说话人识别、军事语音技术

#语音识别 #算法 #python +2

CSLU: Multilanguage Telephone Speech Version 1.2数据集介绍，官网编号LDC2006S35

CSLU: Multilanguage Telephone Speech Version 1.2 是由美国俄勒冈健康与科学大学口语理解中心（CSLU）构建、LDC 于 2006 年发布的多语种电话语音数据集（编号 LDC2006S35），核心用于多语种电话语音识别（ASR）、语言识别与鲁棒性算法研发，数据源自真实电话信道，覆盖 21 种语言，适配低资源语种语音技术冷启动与跨语种模型训练。

#语音识别 #数据结构 #算法 +2

TDT5 Topics and Annotations数据集介绍，官网编号LDC2006T19

TDT5 Topics and Annotations（LDC2006T19）是 LDC 于 2006 年发布的，与 TDT5 Multilingual Text（LDC2006T18）搭配使用，为 2004 年 NIST TDT 评测提供话题定义、标准标注与评测基准，核心用于话题检测、跟踪、关联等任务的算法评估与模型训练，是 TDT 领域关键的标注资源。以下从核心信息、内容构成、标注体系、应用价

#自然语言处理 #人工智能 #数据结构 +3

共 18 条

请选择