
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
在边缘设备上部署混合注意力大模型:基于 TensorRT Edge-LLM 适配 Qwen3.5-0.8B 全记录(一)
本文记录了将 Qwen3.5-0.8B 混合注意力模型适配到 NVIDIA TensorRT Edge-LLM 并部署至 DRIVE Orin 边缘平台的全过程。Qwen3.5-0.8B 采用 18 层 Linear Attention + 6 层 Full Attention 的混合架构,75% 的层使用固定大小状态,大幅降低内存占用。适配工作涵盖:Python 端 ONNX 导出与数据类型修复

到底了







