m0_62603533 个人主页

@m0_62603533

m0_62603533

2023-03-07 12:59:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

别只盯着 ElevenLabs，这个开源配音工作台能本地跑

我最近看到一个开源项目，第一反应不是模型又强了，而是这东西终于开始像个真正的工作台了。它叫 OmniVoice Studio。项目自己给自己的定位很直接，开源版 ElevenLabs 替代品。实时听写、零样本声音克隆、电影级视频配音，都在本地桌面里跑。README 里写得更狠一点，开源、不需要 API Key、完全本地，还支持 646 种语言。坦率的讲，看到这种描述，我第一反应一般会先打个折。因为

#人工智能 #音视频

真实世界里的语音识别，终于有人开始认真补课了

语音识别最尴尬的时刻，往往不是它完全听不懂，而是它一本正经地听错。这件事你只要用过几次转写工具，应该就能懂。安静房间里，麦克风离嘴很近，普通话或者标准英文，背景没有人说话，风扇也不开。这种条件下，今天很多 ASR 模型已经挺能打了。但你把它丢到真实世界里，情况立刻就不一样了。会议室里有人离麦克风三米远说话，咖啡馆里旁边桌一直聊天，手机录音被衣服蹭到，直播连线里网络一卡一卡的，音箱开得太大又带回声。

#语音识别 #人工智能

claude code router 报错：“This model is not available in your region ”

就在快要放弃的时候，点开了 C:\Users\23349.claude-code-router\config.json 看了一下配置文件，结果发现里面的 PROXY_URL 字段为空，难怪出现这种问题，重新配置 “PROXY_URL”: “http://127.0.0.1:7890” 之后就没问题了。最近使用ccr(claude code router )的时候总是显示claude模型无法使用，前

#人工智能

真实世界里的语音识别，终于有人开始认真补课了

#语音识别 #人工智能

Qwen3.5-LiveTranslate，可能是同传模型最该有的样子

语音翻译这件事，最怕的不是翻不出来，而是翻得像一个没在现场的人。这句话听着有点绕，但你稍微想一下就懂了。一个人在泰国餐厅点菜，服务员指着菜单说了一串泰语。你如果只拿到声音，当然也能翻译。但菜单上写着什么，服务员手指着哪一道菜，桌上到底摆着什么，这些东西都会影响翻译。再比如电商直播，主播嘴里说的是一个型号，手里拿的是另一个商品，屏幕上还有一串参数。你只听音频，很容易把数字、规格、品牌名搞混。

#语音识别 #人工智能

别只盯着 ElevenLabs，这个开源配音工作台能本地跑

#人工智能 #音视频

31种语言的端侧TTS，树莓派也能跑，网页、电子书、树莓派，都能本地开口了

一个99兆级别的TTS项目，居然把网页、电子书和树莓派都串起来了。我一开始看 Supertonic 3，只以为它又是一个“开源TTS模型更新”。但看完 README 里的几个 demo，我觉得它更像是在回答另一个问题：TTS 到底能不能从云端服务，真正长进设备里？这个问题挺关键。因为很多语音合成项目的 demo 很好听，但你真要把它放进浏览器插件、移动端应用、阅读器、树莓派这种设备里，立刻就会碰到

#人工智能 #音视频

89ms实时Whisper，显存还降48%

有人把 Whisper 做到了 89ms 中位延迟，还顺手把 GPU 峰值内存砍掉 48%。我第一眼看到这个数据的时候，其实有点不敢太兴奋。因为做实时语音识别的人都知道，Whisper 是一个特别拧巴的存在，它离线转写很好用，效果稳，生态也成熟，但你真想把它塞进实时字幕、会议助手、语音 Agent 这种场景里，它马上就会暴露一堆不舒服的地方。不是它不能用，而是它不是为流式场景长出来的。你给它一段完

0.1B、单卡可训、完整开源的多模态语音助手，MiniMind-O 把 Omni 模型拆成了图纸

如果你要给学生或团队讲什么叫 speech-native omni，什么叫 Thinker-Talker 解耦，什么叫流式语音生成，拿一个小而完整的工程，比拿一个巨大的商业系统更适合。一个主干大概 0.1B 的小模型，居然把文本、语音、图像输入，文本和流式语音输出，实时打断，音色条件，电话模式 WebUI，这一整套 Omni 链路都摆出来了。但问题是，如果你不是想调 API，而是想从第一行代码开始

#音视频

0.4B模型，为什么能听懂更多方言

闽南语这个数字看起来仍然不低，但你把它放到其他模型旁边看，差距就出来了，Qwen3-ASR-0.6B 是 38.64%，FunASR-Nano-2512 是 55.36%。Dolphin-CN-Dialect 把中文改成字符级建模，英文和字母语言继续用 BPE subword，同时加入任务 token、时间戳 token、方言和地区 token，还预留了 80 个方言 token slot。真实中

#人工智能 #音视频

共 48 条

请选择