语音之家个人主页

@weixin_48827824

语音之家

2023-01-13 11:26:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

可控情感的表现力语音驱动面部动画合成

此外，我们还引入了一个基于CNN网络的情感增强网络，根据情感特征来增强FLAME参数的表现力，将Audio2FLAME模型预测的FLAME面部参数映射为情感增强的面部参数。相反，我们发现情感识别网络的最终softmax层之前的情感logits，包括七种情感的七维向量，如快乐、愤怒等，与感知到的情感强度高度一致。因此，我们将它们用作模型训练的情感先验，并与用户的情感控制向量相结合。我们可以看到，与没

#人工智能 #神经网络 #语音识别 +1

融声向善语音资源开源计划丨AISHELL-6 系列特殊声学特征语音语料库全面开放，助力人机交互向善发展

未来，希尔贝壳将秉持长期开源、优质开源的原则，持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集，为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑，助力破解非典型语音研究中的技术瓶颈，推动语音智能技术向更精准、更普惠、更多元的方向发展。希尔贝壳联合昆山杜克大学开源项目，语料库在安静的录音棚环境中采集，包含约29.8小时的耳语语音与平行录制的29.5小时正常语音，和同步

#开源 #人机交互 #人工智能

FlashLabs开源Chroma 1.0：实时、高保真语音克隆与对话的端到端模型

标题：FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning链接：https://arxiv.org/pdf/2601.11141作者单位：FlashLabs发表日期：2026年1月16日开源地址：https://github.com/FlashLabs-A

#开源 #flask

语音语言模型最新综述！关于GPT-4o背后技术的尝试

SpeechLMs作为一种新兴的语音交互技术,展现出了巨大的潜力。它不仅能够克服传统ASR+LLM+TTS方案的局限性,还能实现更自然、更丰富的人机语音交互。随着研究的深入,我们有理由相信SpeechLMs将在未来的AI语音交互中扮演越来越重要的角色。

#语言模型 #人工智能 #自然语言处理

从 “能说话” 到 “会说话”：Meta+MIT 联手打出 GSRM “声学 + 推理” 组合拳，合成语音自然度赢率飙升 82%

GSRM 的核心创新，在于把语音评估从 “黑盒打分” 变成了 “白盒推理”—— 它不再是简单的数值输出，而是能像人类评委一样，精准指出 “元音音调变化过大导致语调不自然”“节奏不均匀影响类人性” 等具体问题，为模型优化提供明确方向。更重要的是，它打通了 “评估→优化” 的闭环，让语音大模型能自主迭代提升自然度，实测 82% 的人类偏好赢率证明了其有效性。对于语音技术开发者来说，GSRM 不仅是一个

#人工智能

语音降噪风雨六十载（上）——传统信号处理黄金时代

在传统语音降噪方法中，都基于以下四个假设假设一、语音和噪声是统计独立的；假设二、噪声相比于语音更加平稳；假设三、时频点是统计独立的；假设四、人耳对语音相位不敏感；第一个假设是合理的，然而其他三个假设在某些条件下并不真正成立。假设二是传统语音降噪中噪声估计模块的基础，然而实际场景中非稳态噪声也是普遍存在的。对于假设三来说，语音和噪声频点之间必然存在相关性，这就导致基于统计模型的方法比不可能完全成立，

#语音识别

音乐人声分离工具：极简的人声和背景音乐分离工具

这是一个极简的人声和背景音乐分离工具，本地化网页操作，无需连接外网，使用 2stems/4stems/5stems 模型。

#人工智能 #语音识别

VoiceSculptor——音色设计、风格可控的语音生成模型，技术报告来啦！

在AI语音合成领域，能精准听懂自然语言指令、实现细粒度控制的开源工具一直是行业痛点。近期，西工大音频语音与语言处理研究组（ASLP@NPU）与语图智能技术公司（Yutu Zhineng）、上海灵光乍现技术团队（Shanghai Lingguang Zhaxian Technology）、Wenet社区（WeNet Open Source Community）正式。该模型是一款专为音色设计、风格可控

#c++#asp.net

市场规模超 60 亿美元，语音如何改变对话式 AI？

本篇报告的作者 Lightspeed 投资了 Character.ai（AI 角色对话）、Cartesia（语音 AI 模型）、Volley（语音 AI 游戏）、Yellow.ai（语音 AI 客服）等语音 AI 公司。不同于此前分享的侧重企业应用场景分析，Lightspeed 此篇报告更关注语音 AI 底层技术模型的演进趋势。语音技术的演变：语音技术从 1970 年代的「交互式语音应答」（IV

#人工智能 #语音识别 #深度学习 +1

以应用为导向，看声纹识别中的音频伪造问题

声纹识别，又称说话人识别，是根据语音信号中的声纹特征来识别话者身份的过程，也是一种重要的生物认证手段。历经几十年的研究，当前声纹识别系统已取得了令人满意的性能表现，并在安防、司法、金融、家居等诸多领域中完成部署，有着广阔的应用前景。

#网络 #语音识别 #人工智能

共 108 条

请选择