My Principle. 个人主页

@qq_62652984

My Principle.

2024-10-11 20:55:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

国产昆仑芯XPU实战：vLLM-Kunlun插件部署Qwen3.6大模型全流程

本文详细记录了在昆仑芯P800加速卡上部署Qwen3.6-35B-A3B大语言模型的全过程。通过Docker容器配置、vLLM-Kunlun插件编译安装、定制版XPU-PyTorch部署及关键补丁应用等步骤，最终实现模型推理服务的成功启动。实测表明，单张96GB显存的P800可流畅运行MoE架构的35B参数模型，验证了国产AI加速卡在大模型推理场景下的可行性。文章提供了完整的操作流程和避坑指南，包

#人工智能 #深度学习 #语言模型 +3

国产昆仑芯XPU实战：vLLM-Kunlun插件部署Qwen3.6大模型全流程

#人工智能 #深度学习 #语言模型 +3

到底了