半两温柔� 个人主页

@jfheh

半两温柔�

2023-03-12 20:40:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

在边缘设备上部署混合注意力大模型：基于 TensorRT Edge-LLM 适配 Qwen3.5-0.8B 全记录（一）

本文记录了将 Qwen3.5-0.8B 混合注意力模型适配到 NVIDIA TensorRT Edge-LLM 并部署至 DRIVE Orin 边缘平台的全过程。Qwen3.5-0.8B 采用 18 层 Linear Attention + 6 层 Full Attention 的混合架构，75% 的层使用固定大小状态，大幅降低内存占用。适配工作涵盖：Python 端 ONNX 导出与数据类型修复

#人工智能 #深度学习 #c++

诺瓦星云嵌入式面经

诺瓦星云嵌入式开发面经

#面试 #c++#学习 +1

到底了