
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
你敢信吗?一个0.1B参数的TTS模型,能在CPU上跑实时语音合成,MacBook Air单核就能流畅运行。更离谱的是,同一个团队还搞了个8B的音频理解模型,在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。OpenMOSS团队这一波,一个负责"说",一个负责"听",配合得也太默契了。

如果你是做ASR落地的工程师,我强烈建议你把这个方法跑一下。核心代码应该不会超过50行——改改Whisper的解码循环,加一个对比loss,调一下权重,齐活。应用到其他自回归生成任务(LLM、TTS)探索更多"负样本构造"方式和投机采样结合,能不能再提速?这篇论文给我最大的启发是:有时候让模型变聪明,不是教它更多东西,而是教它"什么时候该闭嘴"。Whisper学会了对自己的幻觉说不——这个事情,可

我做了这么多年AI,最常被问的问题是:什么时候端侧大模型能真正用起来?我之前的答案一直是:再等等。但看完这篇论文,我觉得是时候改答案了。端侧ASR这事,不是"未来可期",而是"现在就能用"。云端ASR厂商,醒醒,护城河该填了。如果你是开发者,建议立刻去Foundry-Local扒一扒这套方案,能省你不少事。如果你是创业者,端侧语音应用的窗口期才刚刚打开。下一波端侧AI浪潮,就从语音识别开始。

如果你正在做音频处理相关的工作,或者只是想给自己的录音降个噪,我强烈建议你试试这个项目。12种模型,总有一款适合你。而且,作者说了,这个仓库会持续更新,加入更多新的降噪模型。如果你觉得有用,给个Star吧。毕竟,这样实在的项目,值得被更多人看到。

坦率地讲,我之前一直觉得离线AI是个"玩具",不如联网的AI实用。但用了这个项目之后,我的想法彻底改变了。离线AI,不是"玩具",而是"未来"。你的数据,你做主。你不需要把隐私交给大公司,不需要担心服务商倒闭,不需要为每次调用付费。你只需要一台普通电脑,就能拥有一个完全属于自己的AI助手。这才是AI应该有的样子。如果你也对隐私、稳定性、成本有顾虑,如果你也想拥有一个完全属于自己的AI助手,不妨试试

OmniVoice 的出现,标志着 AI 配音技术进入了一个新的时代:✅600+ 语言— 全球最广覆盖✅3秒克隆— 零样本声音复制✅40倍实时— 超快合成速度✅完全开源— 免费商用无限制不管你是内容创作者、开发者、还是AI爱好者,OmniVoice 都值得你尝试。论文: https://arxiv.org/abs/2604.00688。

OmniVoice 的出现,标志着 AI 配音技术进入了一个新的时代:✅600+ 语言— 全球最广覆盖✅3秒克隆— 零样本声音复制✅40倍实时— 超快合成速度✅完全开源— 免费商用无限制不管你是内容创作者、开发者、还是AI爱好者,OmniVoice 都值得你尝试。论文: https://arxiv.org/abs/2604.00688。

把"只能在服务器上跑"的语音 AI 模型,变成"能在任何设备上跑"的轻量级应用。如果你是开发者,想给自己的 App 加上语音识别、语音合成功能,但又不想依赖云端 API、不想付费、不想担心隐私问题——sherpa-onnx 就是最佳选择。如果你是普通用户,想体验"完全离线"的语音助手、实时字幕、语音输入——去下载那些基于 sherpa-onnx 的开源 App 试试,你会发现"AI 语音"原来可以

把"只能在服务器上跑"的语音 AI 模型,变成"能在任何设备上跑"的轻量级应用。如果你是开发者,想给自己的 App 加上语音识别、语音合成功能,但又不想依赖云端 API、不想付费、不想担心隐私问题——sherpa-onnx 就是最佳选择。如果你是普通用户,想体验"完全离线"的语音助手、实时字幕、语音输入——去下载那些基于 sherpa-onnx 的开源 App 试试,你会发现"AI 语音"原来可以

准确率:5.42% 平均 WER,开源榜首速度:525 倍实时速度,比同级快 3 倍多语言:14 种语言,全面领先易用性:三行代码搞定,生态完善开源:Apache 2.0,拿来就用如果你还在用 Whisper,是时候试试 Cohere Transcribe 了。如果你正在选型语音识别方案,这个模型应该是你的首选。语音识别的新王者,已经来了。








