logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在边缘设备上部署混合注意力大模型:基于 TensorRT Edge-LLM 适配 Qwen3.5-0.8B 全记录(一)

本文记录了将 Qwen3.5-0.8B 混合注意力模型适配到 NVIDIA TensorRT Edge-LLM 并部署至 DRIVE Orin 边缘平台的全过程。Qwen3.5-0.8B 采用 18 层 Linear Attention + 6 层 Full Attention 的混合架构,75% 的层使用固定大小状态,大幅降低内存占用。适配工作涵盖:Python 端 ONNX 导出与数据类型修复

文章图片
#人工智能#深度学习#c++
诺瓦星云嵌入式面经

诺瓦星云嵌入式开发面经

#面试#c++#学习 +1
到底了