
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
就在快要放弃的时候,点开了 C:\Users\23349.claude-code-router\config.json 看了一下配置文件,结果发现里面的 PROXY_URL 字段为空,难怪出现这种问题,重新配置 “PROXY_URL”: “http://127.0.0.1:7890” 之后就没问题了。最近使用ccr(claude code router )的时候总是显示claude模型无法使用,前

闽南语这个数字看起来仍然不低,但你把它放到其他模型旁边看,差距就出来了,Qwen3-ASR-0.6B 是 38.64%,FunASR-Nano-2512 是 55.36%。Dolphin-CN-Dialect 把中文改成字符级建模,英文和字母语言继续用 BPE subword,同时加入任务 token、时间戳 token、方言和地区 token,还预留了 80 个方言 token slot。真实中

语音翻译这件事,最怕的不是翻不出来,而是翻得像一个没在现场的人。这句话听着有点绕,但你稍微想一下就懂了。一个人在泰国餐厅点菜,服务员指着菜单说了一串泰语。你如果只拿到声音,当然也能翻译。但菜单上写着什么,服务员手指着哪一道菜,桌上到底摆着什么,这些东西都会影响翻译。再比如电商直播,主播嘴里说的是一个型号,手里拿的是另一个商品,屏幕上还有一串参数。你只听音频,很容易把数字、规格、品牌名搞混。

简单来说,它是一个 Chrome 插件 + 本地 MCP 服务器的组合。❌ 没有你的登录态❌ 没有你的浏览器设置❌ 没有你的书签和历史记录❌ 每次都要从头开始Chrome MCP Server 完全不同✅直接用你正在浏览的 Chrome——所有标签页、登录态、插件、设置全都在✅零额外资源占用——不需要再启动一个浏览器进程✅即刻开始工作——打开就能用,无需配置它让 AI 真正融入你的工作流,而不是强

准确率:5.42% 平均 WER,开源榜首速度:525 倍实时速度,比同级快 3 倍多语言:14 种语言,全面领先易用性:三行代码搞定,生态完善开源:Apache 2.0,拿来就用如果你还在用 Whisper,是时候试试 Cohere Transcribe 了。如果你正在选型语音识别方案,这个模型应该是你的首选。语音识别的新王者,已经来了。

坦率地讲,我之前一直觉得离线AI是个"玩具",不如联网的AI实用。但用了这个项目之后,我的想法彻底改变了。离线AI,不是"玩具",而是"未来"。你的数据,你做主。你不需要把隐私交给大公司,不需要担心服务商倒闭,不需要为每次调用付费。你只需要一台普通电脑,就能拥有一个完全属于自己的AI助手。这才是AI应该有的样子。如果你也对隐私、稳定性、成本有顾虑,如果你也想拥有一个完全属于自己的AI助手,不妨试试

它把模型、流式 chunk、sherpa-onnx 部署、WebSocket 服务端、本地实时 demo、VAD 断句,甚至一个桌面语音输入应用,都放在了同一个项目叙事里。但如果你在做实时字幕、语音输入、会议系统、离线端侧原型,或者想把 ASR 接进自己的应用里,这种 WebSocket server/client 示例就很重要。在这个 README 给出的评测口径里,一个 0.16B 的中英文

我最近看到一个开源项目,第一反应不是模型又强了,而是这东西终于开始像个真正的工作台了。它叫 OmniVoice Studio。项目自己给自己的定位很直接,开源版 ElevenLabs 替代品。实时听写、零样本声音克隆、电影级视频配音,都在本地桌面里跑。README 里写得更狠一点,开源、不需要 API Key、完全本地,还支持 646 种语言。坦率的讲,看到这种描述,我第一反应一般会先打个折。因为

语音识别最尴尬的时刻,往往不是它完全听不懂,而是它一本正经地听错。这件事你只要用过几次转写工具,应该就能懂。安静房间里,麦克风离嘴很近,普通话或者标准英文,背景没有人说话,风扇也不开。这种条件下,今天很多 ASR 模型已经挺能打了。但你把它丢到真实世界里,情况立刻就不一样了。会议室里有人离麦克风三米远说话,咖啡馆里旁边桌一直聊天,手机录音被衣服蹭到,直播连线里网络一卡一卡的,音箱开得太大又带回声。

语音识别最尴尬的时刻,往往不是它完全听不懂,而是它一本正经地听错。这件事你只要用过几次转写工具,应该就能懂。安静房间里,麦克风离嘴很近,普通话或者标准英文,背景没有人说话,风扇也不开。这种条件下,今天很多 ASR 模型已经挺能打了。但你把它丢到真实世界里,情况立刻就不一样了。会议室里有人离麦克风三米远说话,咖啡馆里旁边桌一直聊天,手机录音被衣服蹭到,直播连线里网络一卡一卡的,音箱开得太大又带回声。








