
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
端侧语音AI实战,SenseVoice移植到sophon TPU 全记录
本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

端侧语音AI实战,SenseVoice移植到sophon TPU 全记录
本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s
本文探讨了在端侧设备上实现语音意图解析的两种方案:纯LLM方案与Embedding召回+LLM组合方案。通过实际工程验证,揭示了在NPU硬件受限环境下(如9 TOPS算力、0.5B-4B小模型),Embedding的核心价值并非工具检索,而是通过预过滤大幅降低输入LLM的token数量——这对端侧延迟控制至关重要。实测数据显示,组合方案通过CPU跑轻量Embedding(100ms)换取LLM阶段

端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s
本文探讨了在端侧设备上实现语音意图解析的两种方案:纯LLM方案与Embedding召回+LLM组合方案。通过实际工程验证,揭示了在NPU硬件受限环境下(如9 TOPS算力、0.5B-4B小模型),Embedding的核心价值并非工具检索,而是通过预过滤大幅降低输入LLM的token数量——这对端侧延迟控制至关重要。实测数据显示,组合方案通过CPU跑轻量Embedding(100ms)换取LLM阶段

到底了







