logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN-昇腾NPU-Speculative-Decoding进阶-怎么选draft模型

《如何选择Draft模型提升Speculative Decoding效率》摘要: Speculative Decoding通过小模型(draft)预测token、大模型(target)批量验证来加速推理,其核心指标acceptance rate取决于两模型分布匹配度。ATB框架提出三条选型原则:1)优先同架构模型(如Llama2-7B配1.1B版,acceptance rate达65%);2)大小

文章图片
#开源
CANN-昇腾NPU-Speculative-Decoding进阶-怎么选draft模型

《如何选择Draft模型提升Speculative Decoding效率》摘要: Speculative Decoding通过小模型(draft)预测token、大模型(target)批量验证来加速推理,其核心指标acceptance rate取决于两模型分布匹配度。ATB框架提出三条选型原则:1)优先同架构模型(如Llama2-7B配1.1B版,acceptance rate达65%);2)大小

文章图片
#开源
CANN-昇腾NPU-Speculative-Decoding进阶-怎么选draft模型

《如何选择Draft模型提升Speculative Decoding效率》摘要: Speculative Decoding通过小模型(draft)预测token、大模型(target)批量验证来加速推理,其核心指标acceptance rate取决于两模型分布匹配度。ATB框架提出三条选型原则:1)优先同架构模型(如Llama2-7B配1.1B版,acceptance rate达65%);2)大小

文章图片
#开源
CANN端侧部署实践

端侧AI是指将AI模型部署在终端设备上,如手机、相机、IoT设备等。CANN为端侧部署提供了完整的解决方案。CANN端侧部署提供了完整的解决方案,从模型转换优化到应用开发部署。通过合理的设计和优化,可以在资源受限的端侧设备上实现高效的AI推理。端侧AI应用正在快速发展,CANN作为昇腾AI处理器的软件栈,为端侧AI应用开发提供了强大的支持。

#python
CANN端侧部署实践

端侧AI是指将AI模型部署在终端设备上,如手机、相机、IoT设备等。CANN为端侧部署提供了完整的解决方案。CANN端侧部署提供了完整的解决方案,从模型转换优化到应用开发部署。通过合理的设计和优化,可以在资源受限的端侧设备上实现高效的AI推理。端侧AI应用正在快速发展,CANN作为昇腾AI处理器的软件栈,为端侧AI应用开发提供了强大的支持。

#python
CANN开源社区与生态建设

CANN(Compute Architecture for Neural Networks)开源社区是华为昇腾AI处理器软件栈的开放协作平台,旨在构建开放的AI计算生态系统。CANN开源社区是构建开放AI计算生态的重要平台。学习最新技术提升开发能力拓展职业网络获得技术认可社区欢迎所有对AI计算感兴趣的开发者参与,共同推动AI技术发展和应用普及。让我们一起建设开放、协作、共赢的CANN开源社区!

#开源
到底了