海天瑞声AI 个人主页

@Speechocean

海天瑞声AI

2024-02-21 18:49:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

高质量思维链（CoT）数据助力Deepseek成为国产大模型之光

而思维链（CoT）技术显式展示了模型在推理过程中所做的每一步推理和计算，使得模型的输出更加透明和易于理解。是近年来在人工智能领域逐渐被广泛采用的一种技术，它的核心优势在于通过模拟人类的思维过程，使得 AI 系统不仅能够做出决策，还能清晰地展示其推理过程。这种显式的推理过程提升了 AI 的可解释性和透明度，尤其在复杂的推理任务中，比传统模型更加出色。DeepSeek-R1采用了混合专家架构，能够根据

#人工智能 #自然语言处理

Dolphin-CN-Dialect正式发布：同样的数据，换一种配方，让ASR听懂更多中国话

Dolphin-CN-Dialect是一款面向汉语多方言、多口音、真实场景优化的新一代语音识别模型，它并非简单扩大模型规模，而是在Dolphin系列模型基础上，围绕数据配方、tokenizer、训练稳定性、流式转写、热词增强和部署效率做了一次系统升级，破解主流ASR模型方言识别率断崖下跌的行业难题。我们希望Dolphin-CN-Dialect的发布，能够补齐汉语方言语音识别的短板，让语音识别不只听

#语音识别

模型开源｜支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦！

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。然而，对于东方语言的识别如越南语、缅甸语等，现有模型往往表现不佳，难以满足用户的需求。为解决这一难题，支持东方40个语种的语音识别，中文语种支持22方言（含普通话）；训练数据总时长21.2万小时：其中海天瑞声高质量专有数据13.8万小时，开源数据7.4万小时；在3个测试集（海天瑞声、Fleur

#开源

NCMMSC-CNVSRC 2023视觉语音识别竞赛圆满落幕

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。12月9日晚，NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议（NCMMSC 2023）举办，会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的获奖名次，在现场清华大学及各获奖团队进行精彩分享。研讨会中，清华大学王东老师主持技术交流会，海天瑞声副总经理、COO李科开场致辞并和语音

#语音识别 #人工智能 #机器学习

GPT-4o来了，超拟人语音合成系统的关键都在这里

GPT-4o 作为一款人机交互的先进大模型，融合了文本、语音和图像三种模态的理解能力，其响应速度之快、情感表达之丰富以及对人类行为的深刻理解，都标志着人机交互领域的又一次飞跃。然而，直接使用这些数据训练TTS模型可以更直接有效地学习如何表达情感、语气等副语言特征，简化系统结构，提高数据的一致性与质量，增强模型的泛化能力，并减少对外部系统的依赖。情感的自动检测是通过NLP技术实现，如情感分析，但如何

#人工智能 #语音识别

高质量思维链（CoT）数据助力Deepseek成为国产大模型之光

#人工智能 #自然语言处理

CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题：中文连续视觉语音识别挑战赛（CNVSRC, Chinese Continuous Visual Speech Recognition Challenge）正式对外发布。

#语音识别 #人工智能 #机器学习 +1

Data-Centric AI 以数据为中心的人工智能

它由五个子目标组成，包括收集数据，用于添加信息标签的数据标记，用于清理和转换数据的数据准备，用于对原始数据做更further的processing，用于在不收集更多数据的情况下增强数据多样性。以数据为中心的AI不仅要求数据的数据大而且要求数据的质量高，需要专业的数据公司把控质量。数据的关键性日益凸显，特别是近年来大型模型的发展，如上图ChatGPT迭代过程所示，训练所需的数据不仅在质量上有所提升，

#人工智能 #机器学习

Whisper、Voice Engine推出后，训练语音大模型的高质量数据去哪里找？

只有这样，训练出的模型才能在实际应用中展现出对各种语音变体的高度敏感性和强大的识别能力，从而使语音大模型更好地适应中国复杂的语言环境，让科技更好地服务于社会和文化的多样性。为了构建能够有效识别这些不同语言变体的模型，就需要获取广泛而深入的数据，这意味着不仅要涉及北方的官话、南方的吴语、粤语、闽南语等主要方言，还要覆盖更多地区特色明显的小众方言。在普通话成为全国性官方语言的同时，各地的方言和地方口音

#人工智能 #语音识别

CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。在提交结果的同时，参赛队伍需以论文形式提交系统技术报告。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据，评估在

#语音识别 #人工智能

共 25 条

请选择