weixin_46420615 个人主页

@weixin_46420615

weixin_46420615

2024-09-25 18:00:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s

本文探讨了在端侧设备上实现语音意图解析的两种方案：纯LLM方案与Embedding召回+LLM组合方案。通过实际工程验证，揭示了在NPU硬件受限环境下（如9 TOPS算力、0.5B-4B小模型），Embedding的核心价值并非工具检索，而是通过预过滤大幅降低输入LLM的token数量——这对端侧延迟控制至关重要。实测数据显示，组合方案通过CPU跑轻量Embedding（100ms）换取LLM阶段

#语音识别 #人工智能 #语言模型

端侧语音AI实战，SenseVoice移植到sophon TPU 全记录

本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

#人工智能 #语音识别 #算法

端侧语音AI实战，SenseVoice移植到sophon TPU 全记录

本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

#人工智能 #语音识别 #算法

端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s

#语音识别 #人工智能 #语言模型

端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s

#语音识别 #人工智能 #语言模型

到底了