logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

可控情感的表现力语音驱动面部动画合成

此外,我们还引入了一个基于CNN网络的情感增强网络,根据情感特征来增强FLAME参数的表现力,将Audio2FLAME模型预测的FLAME面部参数映射为情感增强的面部参数。相反,我们发现情感识别网络的最终softmax层之前的情感logits,包括七种情感的七维向量,如快乐、愤怒等,与感知到的情感强度高度一致。因此,我们将它们用作模型训练的情感先验,并与用户的情感控制向量相结合。我们可以看到,与没

文章图片
#人工智能#神经网络#语音识别 +1
融声向善语音资源开源计划丨AISHELL-6 系列特殊声学特征语音语料库全面开放,助力人机交互向善发展

未来,希尔贝壳将秉持长期开源、优质开源的原则,持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集,为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑,助力破解非典型语音研究中的技术瓶颈,推动语音智能技术向更精准、更普惠、更多元的方向发展。希尔贝壳联合昆山杜克大学开源项目,语料库在安静的录音棚环境中采集,包含约29.8小时的耳语语音与平行录制的29.5小时正常语音,和同步

文章图片
#开源#人机交互#人工智能
FlashLabs开源Chroma 1.0:实时、高保真语音克隆与对话的端到端模型

标题:FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning链接:https://arxiv.org/pdf/2601.11141作者单位:FlashLabs发表日期:2026年1月16日开源地址:https://github.com/FlashLabs-A

文章图片
#开源#flask
语音语言模型最新综述! 关于GPT-4o背后技术的尝试

SpeechLMs作为一种新兴的语音交互技术,展现出了巨大的潜力。它不仅能够克服传统ASR+LLM+TTS方案的局限性,还能实现更自然、更丰富的人机语音交互。随着研究的深入,我们有理由相信SpeechLMs将在未来的AI语音交互中扮演越来越重要的角色。

文章图片
#语言模型#人工智能#自然语言处理
从 “能说话” 到 “会说话”:Meta+MIT 联手打出 GSRM “声学 + 推理” 组合拳,合成语音自然度赢率飙升 82%

GSRM 的核心创新,在于把语音评估从 “黑盒打分” 变成了 “白盒推理”—— 它不再是简单的数值输出,而是能像人类评委一样,精准指出 “元音音调变化过大导致语调不自然”“节奏不均匀影响类人性” 等具体问题,为模型优化提供明确方向。更重要的是,它打通了 “评估→优化” 的闭环,让语音大模型能自主迭代提升自然度,实测 82% 的人类偏好赢率证明了其有效性。对于语音技术开发者来说,GSRM 不仅是一个

文章图片
#人工智能
语音降噪风雨六十载(上)——传统信号处理黄金时代

在传统语音降噪方法中,都基于以下四个假设假设一、语音和噪声是统计独立的;假设二、噪声相比于语音更加平稳;假设三、时频点是统计独立的;假设四、人耳对语音相位不敏感;第一个假设是合理的,然而其他三个假设在某些条件下并不真正成立。假设二是传统语音降噪中噪声估计模块的基础,然而实际场景中非稳态噪声也是普遍存在的。对于假设三来说,语音和噪声频点之间必然存在相关性,这就导致基于统计模型的方法比不可能完全成立,

文章图片
#语音识别
音乐人声分离工具:极简的人声和背景音乐分离工具

这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。

文章图片
#人工智能#语音识别
VoiceSculptor——音色设计、风格可控的语音生成模型,技术报告来啦!

在AI语音合成领域,能精准听懂自然语言指令、实现细粒度控制的开源工具一直是行业痛点。近期,西工大音频语音与语言处理研究组(ASLP@NPU)与语图智能技术公司(Yutu Zhineng)、上海灵光乍现技术团队(Shanghai Lingguang Zhaxian Technology)、Wenet社区(WeNet Open Source Community)正式。该模型是一款专为音色设计、风格可控

文章图片
#c++#asp.net
市场规模超 60 亿美元,语音如何改变对话式 AI?

本篇报告的作者 Lightspeed 投资了 Character.ai(AI 角色对话)、Cartesia(语音 AI 模型)、Volley(语音 AI 游戏) 、Yellow.ai(语音 AI 客服)等语音 AI 公司。不同于此前分享的侧重企业应用场景分析,Lightspeed 此篇报告更关注语音 AI 底层技术模型的演进趋势。语音技术的演变:语音技术从 1970 年代的「交互式语音应答」(IV

文章图片
#人工智能#语音识别#深度学习 +1
以应用为导向,看声纹识别中的音频伪造问题

声纹识别,又称说话人识别,是根据语音信号中的声纹特征来识别话者身份的过程,也是一种重要的生物认证手段。历经几十年的研究,当前声纹识别系统已取得了令人满意的性能表现,并在安防、司法、金融、家居等诸多领域中完成部署,有着广阔的应用前景。

文章图片
#网络#语音识别#人工智能
    共 108 条
  • 1
  • 2
  • 3
  • 11
  • 请选择