Radeon 显卡上部署 Qwen 3.6 的完全实战指南

几何心凉

18人浏览 · 2026-06-17 10:41:24

几何心凉 · 2026-06-17 10:41:24 发布

一、为什么选择 Qwen 3.6？

2026 年 4 月，阿里云通义千问团队正式开源了 Qwen 3.6 系列模型。这一代模型有两个值得关注的版本：

Qwen3.6-27B：270 亿参数的稠密多模态模型，在智能体编程方面全面超越了前代开源旗舰 Qwen3.5-397B-A17B（总参数 3970 亿的 MoE 模型）。SWE-bench Verified 得分 77.2，Terminal-Bench 2.0 得分 59.3。
Qwen3.6-35B-A3B：采用 MoE 架构，总参数 350 亿、激活仅 30 亿，以极低的算力消耗实现与稠密模型相当的性能。

对于 Radeon 显卡用户来说，Qwen3.6-35B-A3B 尤其友好——仅 30 亿激活参数意味着 6GB 显存即可启动，而 16GB 以上显存则可以流畅运行 27B 版本。更重要的是，AMD 官方已宣布对 Qwen 3.6 系列实现 Day 0 支持，与 ROCm 7.0 和 vLLM 深度集成。

二、硬件选型：别被显存带宽忽悠了

在开始之前，必须先泼盆冷水：不是所有 A 卡都能跑大模型。

AMD 的 ROCm 框架对 GPU 架构有严格筛选。如果你还在用 Polaris 架构的 RX 580，大概率会在编译阶段就碰壁。

推荐配置：

优先级	显卡型号	显存	适用场景
首选	RX 7900 XTX	24GB	Qwen3.6-27B 全量推理 + 微调
推荐	RX 7900 XT	20GB	Qwen3.6-27B 推理，轻量微调
入门	RX 7800 XT	16GB	Qwen3.6-35B-A3B 流畅运行
尝鲜	RX 7600	8GB	Qwen3.6-35B-A3B 基础推理

避坑要点：

首选 RDNA 3 架构（RX 7000 系列），对 ROCm 支持最完善
显存即正义——16GB 是起步线，20GB 或 24GB 更从容
千万别买“魔改版”或笔记本移动版核心，桌面版标准核心在 Linux 下的驱动支持要稳定得多

三、环境配置：驯服 ROCm 的“排雷”实录

Windows 下的 DirectML 虽然能用，但要想发挥 A 卡的全部实力，Linux 是唯一真神。

3.1 系统准备

bash

# 推荐 Ubuntu 22.04 LTS，内核锁定在 6.5.x 版本
lsb_release -a
uname -r

3.2 安装 ROCm

bash

# 添加 AMD 官方源
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo apt install ./amdgpu-install_6.1.60100-1_all.deb
sudo amdgpu-install --usecase=rocm

# 关键一步：将用户加入 render 和 video 组（极其隐蔽，很多人卡在这里）
sudo usermod -a -G render,video $LOGNAME

# 重启后验证
rocminfo
# 如果看到 Name: gfx1100（RX 7900 系列），说明路通了

常见踩坑：内核版本过高会导致 DKMS 模块编译失败。解决方案是降级内核或手动添加 AMD 官方源锁定稳定版本。

3.3 Python 环境

ROCm 版本的 vLLM 需要 Python 3.12、ROCm 7.0 和 glibc >= 2.35。

bash

# 使用 conda 创建独立环境
conda create -n qwen36 python=3.12
conda activate qwen36

# 安装 PyTorch with ROCm
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0

四、模型部署：用 vLLM / SGLang 跑起来

4.1 使用 vLLM（推荐）

bash

# 安装 vLLM ROCm 版本
pip install vllm==0.20.1+rocm721

# 下载模型（从 HuggingFace 或 ModelScope）
pip install huggingface-hub
huggingface-cli download Qwen/Qwen3.6-35B-A3B --local-dir ./Qwen3.6-35B-A3B

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model ./Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --trust-remote-code \
    --max-model-len 8192

4.2 使用 SGLang（AMD 官方推荐）

AMD 官方提供了预构建的 Docker 镜像：

bash

# MI300X 系列使用
docker run -d -it \
    --ipc=host \
    --network=host \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --group-add video \
    --shm-size 32G \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --name qwen3.6 \
    lmsysorg/sglang:v0.5.10-rocm720-mi30x

# 启动服务
docker exec -it qwen3.6 bash
sglang serve --model-path Qwen/Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --enable-flashinfer-allreduce-fusion \
    --attention-backend triton \
    --mem-fraction-static 0.8 \
    --trust-remote-code

4.3 使用 Ollama（最简方案）

对于不想折腾的开发者，Ollama 是最便捷的选择：

bash

# 安装 Ollama with ROCm 支持
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行 Qwen3.6
ollama run qwen3.6-35b-a3b

五、推理优化：榨干 Radeon 的每一分性能

5.1 FP8 量化

Qwen3.6 官方提供了 FP8 量化版本，显存占用可降低约一半：

bash

# 使用 FP8 版本
huggingface-cli download Qwen/Qwen3.6-27B-FP8 --local-dir ./Qwen3.6-27B-FP8

# vLLM 启动时自动识别 FP8 格式
python -m vllm.entrypoints.openai.api_server \
    --model ./Qwen3.6-27B-FP8 \
    --kv-cache-dtype fp8  # 开启 FP8 KV cache

5.2 MTP（Multi-Token Prediction）投机解码

Qwen3.6 支持 MTP 投机解码，可显著提升吞吐量。实测数据显示：

配置	Decode 吞吐量
Baseline	21.46 tok/s
MTP t4	54.48 tok/s（约 2.54x）

小并发压测中，MTP 的 aggregate completion throughput 相对 baseline 提升约 2.5~2.8 倍。

5.3 GGUF 量化（llama.cpp）

对于显存有限的场景，可以使用 llama.cpp 的 GGUF 量化：

bash

# 下载 GGUF 格式模型
# Q4_K_M 量化版本可在 6GB 显存下运行 Qwen3.6-35B-A3B
./llama-cli -m qwen3.6-35b-a3b-q4_k_m.gguf \
    -p "你的提示词" \
    -n 512 \
    -ngl 999  # 全部 offload 到 GPU

实测在 Radeon 上，Qwen3.6-35B-A3B Q4_K_M 版本可实现流畅的推理速度。

六、LoRA 微调：让模型学会你的专属知识

6.1 使用 LLaMA-Factory

LLaMA-Factory 是当前最流行的微调框架之一，对 ROCm 有良好支持。

bash

# 克隆仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .

# 准备数据集（JSON 格式）
# 例如：法律文书问答对、医疗病历 QA 等

LoRA 配置示例（train_qwen36_lora.yaml）：

yaml

model_name_or_path: ./Qwen3.6-35B-A3B
template: qwen
stage: sft
finetuning_type: lora
lora_target: all
dataset: your_dataset  # 你的数据集名称
output_dir: ./output/qwen36-lora
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 2.0e-4
num_train_epochs: 3.0
max_grad_norm: 1.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
lora_rank: 16
lora_alpha: 32

启动训练：

bash

llamafactory-cli train train_qwen36_lora.yaml

6.2 使用 Unsloth（显存优化）

Unsloth 通过显存优化技术，可在消费级显卡上高效完成大模型微调：

python

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="./Qwen3.6-35B-A3B",
    max_seq_length=2048,
    load_in_4bit=True,  # 4-bit 量化加载
)
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha=32,
    use_gradient_checkpointing="unsloth",
)
# ... 训练代码

6.3 微调场景示例

法律合同审查：用 1000+ 份标注过的合同条款数据微调，让模型掌握法律文书的审查要点。

医疗问答：基于公开医学文献和病历数据，构建本地化的医疗咨询助手。

代码补全：利用 Qwen3.6 已有的强大编程能力，用公司内部代码库进行领域适配。

七、构建本地 Agent 应用

7.1 Agentic RAG 系统

Qwen3.6 系列在智能体编程方面表现卓越，可与 OpenClaw、Qwen Code、Claude Code 等主流 Agent 框架深度兼容。

搭建一个完全本地化的 RAG 系统：

python

from langchain_community.llms import VLLM
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA

# 1. 初始化 Qwen3.6
llm = VLLM(
    model="./Qwen3.6-35B-A3B",
    trust_remote_code=True,
    tensor_parallel_size=1,
)

# 2. 加载本地文档并创建向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh")
vectorstore = FAISS.from_documents(documents, embeddings)

# 3. 创建 RAG 链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
)

7.2 典型应用场景

本地知识库问答：企业文档、技术手册的智能检索与问答
代码助手：仓库级代码理解、跨文件编辑、终端命令执行
多模态 Agent：利用 Qwen3.6 的原生多模态能力处理图像、视频与文本混合输入

八、性能参考与总结

实测数据

场景	硬件	模型	性能
推理	RX 7900 XT (20GB)	Qwen3.6-35B-A3B	流畅运行，Q4_K_M 量化
推理	RX 6700 XT (12GB) + 32GB RAM	Qwen3.6-27B	上下文窗口可推至 50k+
推理 (云)	AMD GPU (192GB)	Qwen3.6-27B-FP8	MTP 加速 54.48 tok/s

关键 Takeaways

选对硬件：RDNA 3 架构 + 16GB+ 显存是 Radeon 跑大模型的黄金组合
Linux 是王道：别在 Windows 上折磨自己，Ubuntu 22.04 + ROCm 7.0 是最稳的
量化是核心：FP8 或 GGUF Q4_K_M 可让显存占用降低一半，6GB 也能跑
MTP 加速真香：开启后吞吐量提升 2.5 倍
微调门槛低：LLaMA-Factory + LoRA，消费级显卡也能搞定

Radeon 显卡早已不是“只能打游戏”的配角。在 ROCm 生态的快速演进下，它正成为高性价比本地 AI 开发的绝佳选择。现在，轮到你来亲手验证了。

加入AMD AI开发者计划，领取200小时免费云算力

https://s.csdn.cn/ik9E3m

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起

AMD开发者中国社区

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

Higress v2.2.3 版本发布，带来多项核心更新：新增 AI Gateway 的 vLLM 协议透传和上下文限制插件，增强 AI 安全防护与负载均衡；优化 Gateway API 隔离与推理路由配置；改进 Ingress 迁移体验；加固安全认证组件与 TLS 校验；修复多项 Console 问题。社区层面，Higress 正式入驻 CNCF Sandbox。