logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

0.1B参数跑TTS,8B参数超越30B模型:MOSS这波音频双杀,有点离谱

你敢信吗?一个0.1B参数的TTS模型,能在CPU上跑实时语音合成,MacBook Air单核就能流畅运行。更离谱的是,同一个团队还搞了个8B的音频理解模型,在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。OpenMOSS团队这一波,一个负责"说",一个负责"听",配合得也太默契了。

文章图片
#音视频
让Whisper不再瞎编:一招“对比解码“,WER暴降24.3%,速度还快了48%

如果你是做ASR落地的工程师,我强烈建议你把这个方法跑一下。核心代码应该不会超过50行——改改Whisper的解码循环,加一个对比loss,调一下权重,齐活。应用到其他自回归生成任务(LLM、TTS)探索更多"负样本构造"方式和投机采样结合,能不能再提速?这篇论文给我最大的启发是:有时候让模型变聪明,不是教它更多东西,而是教它"什么时候该闭嘴"。Whisper学会了对自己的幻觉说不——这个事情,可

文章图片
微软把2.47G的语音模型压到670M,准确率几乎没掉,端侧ASR这事真要起飞了

我做了这么多年AI,最常被问的问题是:什么时候端侧大模型能真正用起来?我之前的答案一直是:再等等。但看完这篇论文,我觉得是时候改答案了。端侧ASR这事,不是"未来可期",而是"现在就能用"。云端ASR厂商,醒醒,护城河该填了。如果你是开发者,建议立刻去Foundry-Local扒一扒这套方案,能省你不少事。如果你是创业者,端侧语音应用的窗口期才刚刚打开。下一波端侧AI浪潮,就从语音识别开始。

文章图片
#音视频
音频降噪的宝藏仓库,12种模型随便用

如果你正在做音频处理相关的工作,或者只是想给自己的录音降个噪,我强烈建议你试试这个项目。12种模型,总有一款适合你。而且,作者说了,这个仓库会持续更新,加入更多新的降噪模型。如果你觉得有用,给个Star吧。毕竟,这样实在的项目,值得被更多人看到。

文章图片
#音视频
一个完全离线的AI语音助手,体验居然这么好

坦率地讲,我之前一直觉得离线AI是个"玩具",不如联网的AI实用。但用了这个项目之后,我的想法彻底改变了。离线AI,不是"玩具",而是"未来"。你的数据,你做主。你不需要把隐私交给大公司,不需要担心服务商倒闭,不需要为每次调用付费。你只需要一台普通电脑,就能拥有一个完全属于自己的AI助手。这才是AI应该有的样子。如果你也对隐私、稳定性、成本有顾虑,如果你也想拥有一个完全属于自己的AI助手,不妨试试

文章图片
#人工智能
600+语言零样本TTS神器来了!OmniVoice让AI配音进入新纪元

OmniVoice 的出现,标志着 AI 配音技术进入了一个新的时代:✅600+ 语言— 全球最广覆盖✅3秒克隆— 零样本声音复制✅40倍实时— 超快合成速度✅完全开源— 免费商用无限制不管你是内容创作者、开发者、还是AI爱好者,OmniVoice 都值得你尝试。论文: https://arxiv.org/abs/2604.00688。

文章图片
#人工智能
600+语言零样本TTS神器来了!OmniVoice让AI配音进入新纪元

OmniVoice 的出现,标志着 AI 配音技术进入了一个新的时代:✅600+ 语言— 全球最广覆盖✅3秒克隆— 零样本声音复制✅40倍实时— 超快合成速度✅完全开源— 免费商用无限制不管你是内容创作者、开发者、还是AI爱好者,OmniVoice 都值得你尝试。论文: https://arxiv.org/abs/2604.00688。

文章图片
#人工智能
AI 语音模型,终于可以装进你的手机了!

把"只能在服务器上跑"的语音 AI 模型,变成"能在任何设备上跑"的轻量级应用。如果你是开发者,想给自己的 App 加上语音识别、语音合成功能,但又不想依赖云端 API、不想付费、不想担心隐私问题——sherpa-onnx 就是最佳选择。如果你是普通用户,想体验"完全离线"的语音助手、实时字幕、语音输入——去下载那些基于 sherpa-onnx 的开源 App 试试,你会发现"AI 语音"原来可以

文章图片
#人工智能
AI 语音模型,终于可以装进你的手机了!

把"只能在服务器上跑"的语音 AI 模型,变成"能在任何设备上跑"的轻量级应用。如果你是开发者,想给自己的 App 加上语音识别、语音合成功能,但又不想依赖云端 API、不想付费、不想担心隐私问题——sherpa-onnx 就是最佳选择。如果你是普通用户,想体验"完全离线"的语音助手、实时字幕、语音输入——去下载那些基于 sherpa-onnx 的开源 App 试试,你会发现"AI 语音"原来可以

文章图片
#人工智能
语音识别新王者!Cohere Transcribe 登顶开源榜首,准确率碾压 Whisper

准确率:5.42% 平均 WER,开源榜首速度:525 倍实时速度,比同级快 3 倍多语言:14 种语言,全面领先易用性:三行代码搞定,生态完善开源:Apache 2.0,拿来就用如果你还在用 Whisper,是时候试试 Cohere Transcribe 了。如果你正在选型语音识别方案,这个模型应该是你的首选。语音识别的新王者,已经来了。

文章图片
#语音识别#开源
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择