
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
国产昆仑芯XPU实战:vLLM-Kunlun插件部署Qwen3.6大模型全流程
本文详细记录了在昆仑芯P800加速卡上部署Qwen3.6-35B-A3B大语言模型的全过程。通过Docker容器配置、vLLM-Kunlun插件编译安装、定制版XPU-PyTorch部署及关键补丁应用等步骤,最终实现模型推理服务的成功启动。实测表明,单张96GB显存的P800可流畅运行MoE架构的35B参数模型,验证了国产AI加速卡在大模型推理场景下的可行性。文章提供了完整的操作流程和避坑指南,包

国产昆仑芯XPU实战:vLLM-Kunlun插件部署Qwen3.6大模型全流程
本文详细记录了在昆仑芯P800加速卡上部署Qwen3.6-35B-A3B大语言模型的全过程。通过Docker容器配置、vLLM-Kunlun插件编译安装、定制版XPU-PyTorch部署及关键补丁应用等步骤,最终实现模型推理服务的成功启动。实测表明,单张96GB显存的P800可流畅运行MoE架构的35B参数模型,验证了国产AI加速卡在大模型推理场景下的可行性。文章提供了完整的操作流程和避坑指南,包

到底了







