logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

端侧语音AI实战,SenseVoice移植到sophon TPU 全记录

本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

文章图片
#人工智能#语音识别#算法
端侧语音AI实战,SenseVoice移植到sophon TPU 全记录

本文详细记录了将阿里达摩院开源的SenseVoice Small语音识别模型移植到国产Sophon BM1684X TPU芯片的全过程。

文章图片
#人工智能#语音识别#算法
端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s

本文探讨了在端侧设备上实现语音意图解析的两种方案:纯LLM方案与Embedding召回+LLM组合方案。通过实际工程验证,揭示了在NPU硬件受限环境下(如9 TOPS算力、0.5B-4B小模型),Embedding的核心价值并非工具检索,而是通过预过滤大幅降低输入LLM的token数量——这对端侧延迟控制至关重要。实测数据显示,组合方案通过CPU跑轻量Embedding(100ms)换取LLM阶段

文章图片
#语音识别#人工智能#语言模型
端侧NPU语音Agent实战:Embedding召回+Qwen2.5-0.5B意图识别,MTK 9TOPS整体延迟1s

本文探讨了在端侧设备上实现语音意图解析的两种方案:纯LLM方案与Embedding召回+LLM组合方案。通过实际工程验证,揭示了在NPU硬件受限环境下(如9 TOPS算力、0.5B-4B小模型),Embedding的核心价值并非工具检索,而是通过预过滤大幅降低输入LLM的token数量——这对端侧延迟控制至关重要。实测数据显示,组合方案通过CPU跑轻量Embedding(100ms)换取LLM阶段

文章图片
#语音识别#人工智能#语言模型
到底了