AMD GPU 全面支持 Qwen 3.5:性能、上下文长度与多模态的新突破
5] 访问 ROCm AI Developer Hub,了解更多关于在 AMD GPU 上进行 AI 开发的教程、开源项目和技术博客:https://www.amd.com/en/developer/resources/rocm-hub/dev-ai.html?通过在 AMD GPU 上实现 SGLang 与 vLLM 的 Day 0 支持,我们为开发者提供了强大的算力平台和经过优化的软件栈,使其
AMD GPU 全面支持 Qwen 3.5:性能、上下文长度与多模态的新突破
原文作者:Andy Luo, Seungrok Jung, Jacky Zhao, Arthur Huang, Yixiong Huo, Zachary Yao, Hai Xiao

AMD 与阿里巴巴 Qwen 团队紧密合作,在 Qwen 最新一代大语言模型 Qwen 3.5 发布当日,即为 AMD GPU 加速卡提供 Day 0 支持。依托经过优化的 ROCm™ 软件栈,以及 SGLang 与 vLLM 推理服务框架,开发者可以即刻在 AMD GPU 上部署这些最新的开源大模型。

Qwen 3.5 有哪些新特性?
Hybrid Attention 架构
01
与主要依赖Sliding Window Attention 的 Qwen 3 不同,Qwen 3.5 采用了 Hybrid Attention(混合注意力)策略:
-
Full Attention:在固定层间隔(默认每 4 层)使用标准多头注意力层,用于保持较强的关联记忆能力。
-
Linear Attention(Gated Delta Networks):Qwen 3.5 引入了 Gated Delta Networks(Qwen3_5GatedDeltaNet),其计算复杂度相对于序列长度呈线性增长,可以在大幅降低计算开销的情况下处理超长上下文。
原生多模态能力
02
Qwen 3.5 从设计之初就面向多模态场景,内置 DeepStack Vision Transformer:
- 卷积处理:将视频视作第三维度,采用 Conv3d 进行 patch embedding,原生捕获时序信息。
- DeepStack 机制:不是只使用视觉编码器最后一层的特征,而是融合多层特征,兼顾细粒度和高层语义信息。
进阶 MoE:Shared Experts 机制
03
Qwen 3.5 MoE 模型在标准稀疏架构基础上演进,引入 Shared Expert 共享专家机制:
-
Shared Expert:一个专用的致密 MLP 负责处理所有 token,用于捕获通用特征,提升训练稳定性和整体效果。
-
Routed Experts:同时通过 Top-K Router 将 token 路由到一部分专门的专家(例如 64 个专家中激活 top-8)。
Qwen 3.5 部署在 AMD GPU 的战略价值
支撑新一代AI Agent
该适配面向正在构建下一代AI Agent 和企业级平台的 AI 开发者、系统架构师以及 DevOps 工程师。过去的模型在参数规模和推理速度之间往往需要权衡,而运行在 AMD GPU 上的 Qwen 3.5 系列,可以在单机上高效支撑 256K 超长上下文以及复杂多模态工作流,为智能体和企业应用提供强大算力基础。
解决长上下文瓶颈
传统Transformer 结构的注意力计算复杂度为二次方,序列长度上去后,显存和算力需求会急剧膨胀。Qwen 3.5 通过 Hybrid Attention 架构进行优化:
- 线性扩展:借助 Gated Delta Networks,将复杂度降为线性,使模型可以在极长上下文下保持稳定性能,而不会像传统致密模型那样轻易“爆显存”或崩溃。
- 推理速度提升:在超过 32K token 的长上下文下,得益于更低的计算开销,Qwen 3.5 相比前代模型具有更高吞吐。
企业价值:在效率与效果间取得平衡
对于企业用户,这一集成方案在避免厂商锁定的同时,提供高性能AI 部署路径:
- 显著节省算力成本:Ultra-Sparse MoE 设计在推理时仅激活少量参数,相比更大的致密模型,可以在更少计算资源下达到可比甚至更优的效果。
- 原生多模态:依托 DeepStack 和 3D 卷积,Qwen 3.5 可作为“视觉 Agent”,在工业场景、客服场景等复杂环境中做目标识别与理解。
- 提升硬件投资回报(ROI):借助 AMD GPU 巨大的 HBM 容量,开发者可以在单张 GPU 或单个节点上承载全尺寸模型和超长上下文,减少生产环境所需的硬件节点数量。
针对AMD ROCm、SGLang 与 vLLM 的优化
为保证Day 0 即具备高性能,AMD 针对 Qwen 3.5 的关键组件提供了优化的内核支持:
- 通过 Triton 支持 Linear Attention:Qwen 3.5 中的 Gated Delta Networks 在 vLLM 中通过 Triton 内核fused_recurrent_gated_delta_rule)实现。由于 SGLang 和 vLLM 在 ROCm 上已支持 Triton,这些内核在 AMD GPU 上可以开箱即用。
- Shared Expert MoE:Shared Expert 路径基于高度优化的 hipBLASLt GEMM 内核,而路由专家路径继续采用优化的 AITER FusedMoE 实现。
- 视觉内核:多模态旋转位置编码(mRoPE)以及 Conv3d 运算,均可通过 AMD GPU 上的标准 MIOpen 与 PyTorch 内核获得高效支持。
开发者快速上手:在AMD 上部署 Qwen 3.5
前置条件
在开始之前,请确保:
- 已经可以访问 AMD GPU;
- 已正确安装并配置 ROCm 驱动环境。
使用SGLang 在 AMD GPU 上运行 Qwen 3.5
以下步骤展示如何使用最新的、基于ROCm 优化的 SGLang Docker 容器启动 Qwen 3.5。
Step 1
启动 Docker 容器
docker pull rocm/sgl-dev:v0.5.8.post1-rocm720-mi30x-20260215
docker run -it \ --device /dev/dri --device /dev/kfd \ --network host --ipc host \ --group-add video \ --security-opt seccomp=unconfined \ -v $(pwd):/workspace \ rocm/sgl-dev:v0.5.8.post1-rocm720-mi30x-20260215 /bin/bash
Step 2
启动 SGLang Server
启动Qwen 3.5 模型(可选致密或 MoE 版本)。SGLang 会自动识别 Hybrid Attention 层,并启用针对 Gated Delta Net 的优化内核。
代码模版
python3 -m sglang.launch_server \ --port 8000 \ --model-path Qwen/Qwen3.5-397B-A17B \ --tp-size 8 \ --attention-backend triton \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder
Step 3
运行示例
此时你可以通过OpenAI 兼容 API 与模型交互,并参照 Hugging Face 上的示例进行测试:
- 文本输入示例 [1]
- 图像输入示例 [2]
- 视频输入示例 [3]
Step 4
可选——精度评测
下面示例展示如何用lm-eval 评估 GSM8K 任务:
pip install lm-eval[api]
lm_eval --model local-completions \--model_args '{"base_url": "http://localhost:8000/v1/completions", "model": "Qwen/Qwen3.5-397B-A17B", "num_concurrent": 256, "max_retries": 10, "max_gen_toks": 2048}' \ --tasks gsm8k \ --batch_size auto \ --num_fewshot 5 \ --trust_remote_code
你将获得类似下图的GSM8K 评分结果:

使用vLLM 在 AMD GPU 上运行 Qwen 3.5
Step 1
启动 Docker 容器
docker pull rocm/vllm-dev:nightly_main_20260211
docker run -it \ --device /dev/dri --device /dev/kfd \ --network host --ipc host \ --group-add video \ --security-opt seccomp=unconfined \ -v $(pwd):/workspace \ rocm/vllm-dev:nightly_main_20260211 /bin/bash
进入容器后,从源码安装Transformers:
pip install git+https://github.com/huggingface/transformers.git
Step 2
启动 vLLM Server
VLLM_ROCM_USE_AITER=1 \vllm serve Qwen/Qwen3.5-397B-A17B \--port 8000 \--tensor-parallel-size 8 \--reasoning-parser qwen3 \--enable-auto-tool-choice \--tool-call-parser qwen3_coder
Step 3
运行示例
调用方式与SGLang 章节示例相同。
Step 4
可选——精度评测
精度评测方式同SGLang 章节。
上述步骤展示了如何在SGLang 与 vLLM 上服务 Qwen 3.5。所有针对 AMD 的支持代码已合入上游,后续官方发布的 SGLang 和 vLLM Docker 镜像,将可以在 AMD GPU 上开箱即用地运行 Qwen 3.5。
总结
Qwen 3.5 的发布进一步推动了开源大模型能力的边界。通过在 AMD GPU 上实现 SGLang 与 vLLM 的 Day 0 支持,我们为开发者提供了强大的算力平台和经过优化的软件栈,使其能够在生产规模上运行这类参数规模巨大、上下文长度极长的模型,加速 AI Agent 和企业级应用的落地。
参考链接
[1] 文本输入示例(Modelscope):https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B#text-only-input
[2] 图像输入示例(Modelscope):https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B#image-input
[3] 视频输入示例(Modelscope):https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B#video-input
[4] 加入 AMD AI Developer Program,获取 AMD Developer Cloud 资源、专家支持、培训和社区交流:https://www.amd.com/zh-cn/registration/ai-dev-program-sign-up-form.html
[5] 访问 ROCm AI Developer Hub,了解更多关于在 AMD GPU 上进行 AI 开发的教程、开源项目和技术博客:https://www.amd.com/en/developer/resources/rocm-hub/dev-ai.html?utm_source=web&utm_medium=amd&utm_campaign=deepseek_blog
[6] 了解 AMD ROCm Software:https://www.amd.com/en/products/software/rocm.html
[7] 了解 AMD GPU 加速卡:https://www.amd.com/en/products/accelerators/instinct.html
[8] 获取模型与代码:
-
Qwen/Qwen3.5-397B-A17B(Hugging Face):https://huggingface.co/Qwen/Qwen3.5-397B-A17B
-
Qwen/Qwen3.5-397B-A17B(Modelscope):https://www.modelscope.ai/models/Qwen/Qwen3.5-397B-A17B
更多推荐



所有评论(0)