Radeon 显卡上部署 Qwen 3.6 的完全实战指南
一、为什么选择 Qwen 3.6?
2026 年 4 月,阿里云通义千问团队正式开源了 Qwen 3.6 系列模型。这一代模型有两个值得关注的版本:
-
Qwen3.6-27B:270 亿参数的稠密多模态模型,在智能体编程方面全面超越了前代开源旗舰 Qwen3.5-397B-A17B(总参数 3970 亿的 MoE 模型)。SWE-bench Verified 得分 77.2,Terminal-Bench 2.0 得分 59.3。
-
Qwen3.6-35B-A3B:采用 MoE 架构,总参数 350 亿、激活仅 30 亿,以极低的算力消耗实现与稠密模型相当的性能。
对于 Radeon 显卡用户来说,Qwen3.6-35B-A3B 尤其友好——仅 30 亿激活参数意味着 6GB 显存即可启动,而 16GB 以上显存则可以流畅运行 27B 版本。更重要的是,AMD 官方已宣布对 Qwen 3.6 系列实现 Day 0 支持,与 ROCm 7.0 和 vLLM 深度集成。
二、硬件选型:别被显存带宽忽悠了
在开始之前,必须先泼盆冷水:不是所有 A 卡都能跑大模型。
AMD 的 ROCm 框架对 GPU 架构有严格筛选。如果你还在用 Polaris 架构的 RX 580,大概率会在编译阶段就碰壁。
推荐配置:
| 优先级 | 显卡型号 | 显存 | 适用场景 |
|---|---|---|---|
| 首选 | RX 7900 XTX | 24GB | Qwen3.6-27B 全量推理 + 微调 |
| 推荐 | RX 7900 XT | 20GB | Qwen3.6-27B 推理,轻量微调 |
| 入门 | RX 7800 XT | 16GB | Qwen3.6-35B-A3B 流畅运行 |
| 尝鲜 | RX 7600 | 8GB | Qwen3.6-35B-A3B 基础推理 |
避坑要点:
-
首选 RDNA 3 架构(RX 7000 系列),对 ROCm 支持最完善
-
显存即正义——16GB 是起步线,20GB 或 24GB 更从容
-
千万别买“魔改版”或笔记本移动版核心,桌面版标准核心在 Linux 下的驱动支持要稳定得多
三、环境配置:驯服 ROCm 的“排雷”实录
Windows 下的 DirectML 虽然能用,但要想发挥 A 卡的全部实力,Linux 是唯一真神。
3.1 系统准备
bash
# 推荐 Ubuntu 22.04 LTS,内核锁定在 6.5.x 版本 lsb_release -a uname -r
3.2 安装 ROCm
bash
# 添加 AMD 官方源 wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb sudo apt install ./amdgpu-install_6.1.60100-1_all.deb sudo amdgpu-install --usecase=rocm # 关键一步:将用户加入 render 和 video 组(极其隐蔽,很多人卡在这里) sudo usermod -a -G render,video $LOGNAME # 重启后验证 rocminfo # 如果看到 Name: gfx1100(RX 7900 系列),说明路通了
常见踩坑:内核版本过高会导致 DKMS 模块编译失败。解决方案是降级内核或手动添加 AMD 官方源锁定稳定版本。
3.3 Python 环境
ROCm 版本的 vLLM 需要 Python 3.12、ROCm 7.0 和 glibc >= 2.35。
bash
# 使用 conda 创建独立环境 conda create -n qwen36 python=3.12 conda activate qwen36 # 安装 PyTorch with ROCm pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0
四、模型部署:用 vLLM / SGLang 跑起来
4.1 使用 vLLM(推荐)
bash
# 安装 vLLM ROCm 版本
pip install vllm==0.20.1+rocm721
# 下载模型(从 HuggingFace 或 ModelScope)
pip install huggingface-hub
huggingface-cli download Qwen/Qwen3.6-35B-A3B --local-dir ./Qwen3.6-35B-A3B
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model ./Qwen3.6-35B-A3B \
--tensor-parallel-size 1 \
--trust-remote-code \
--max-model-len 8192
4.2 使用 SGLang(AMD 官方推荐)
AMD 官方提供了预构建的 Docker 镜像:
bash
# MI300X 系列使用
docker run -d -it \
--ipc=host \
--network=host \
--privileged \
--device=/dev/kfd \
--device=/dev/dri \
--group-add video \
--shm-size 32G \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--name qwen3.6 \
lmsysorg/sglang:v0.5.10-rocm720-mi30x
# 启动服务
docker exec -it qwen3.6 bash
sglang serve --model-path Qwen/Qwen3.6-35B-A3B \
--tensor-parallel-size 1 \
--enable-flashinfer-allreduce-fusion \
--attention-backend triton \
--mem-fraction-static 0.8 \
--trust-remote-code
4.3 使用 Ollama(最简方案)
对于不想折腾的开发者,Ollama 是最便捷的选择:
bash
# 安装 Ollama with ROCm 支持 curl -fsSL https://ollama.com/install.sh | sh # 拉取并运行 Qwen3.6 ollama run qwen3.6-35b-a3b
五、推理优化:榨干 Radeon 的每一分性能
5.1 FP8 量化
Qwen3.6 官方提供了 FP8 量化版本,显存占用可降低约一半:
bash
# 使用 FP8 版本
huggingface-cli download Qwen/Qwen3.6-27B-FP8 --local-dir ./Qwen3.6-27B-FP8
# vLLM 启动时自动识别 FP8 格式
python -m vllm.entrypoints.openai.api_server \
--model ./Qwen3.6-27B-FP8 \
--kv-cache-dtype fp8 # 开启 FP8 KV cache
5.2 MTP(Multi-Token Prediction)投机解码
Qwen3.6 支持 MTP 投机解码,可显著提升吞吐量。实测数据显示:
| 配置 | Decode 吞吐量 |
|---|---|
| Baseline | 21.46 tok/s |
| MTP t4 | 54.48 tok/s(约 2.54x) |
小并发压测中,MTP 的 aggregate completion throughput 相对 baseline 提升约 2.5~2.8 倍。
5.3 GGUF 量化(llama.cpp)
对于显存有限的场景,可以使用 llama.cpp 的 GGUF 量化:
bash
# 下载 GGUF 格式模型
# Q4_K_M 量化版本可在 6GB 显存下运行 Qwen3.6-35B-A3B
./llama-cli -m qwen3.6-35b-a3b-q4_k_m.gguf \
-p "你的提示词" \
-n 512 \
-ngl 999 # 全部 offload 到 GPU
实测在 Radeon 上,Qwen3.6-35B-A3B Q4_K_M 版本可实现流畅的推理速度。
六、LoRA 微调:让模型学会你的专属知识
6.1 使用 LLaMA-Factory
LLaMA-Factory 是当前最流行的微调框架之一,对 ROCm 有良好支持。
bash
# 克隆仓库 git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e . # 准备数据集(JSON 格式) # 例如:法律文书问答对、医疗病历 QA 等
LoRA 配置示例(train_qwen36_lora.yaml):
yaml
model_name_or_path: ./Qwen3.6-35B-A3B template: qwen stage: sft finetuning_type: lora lora_target: all dataset: your_dataset # 你的数据集名称 output_dir: ./output/qwen36-lora per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 2.0e-4 num_train_epochs: 3.0 max_grad_norm: 1.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true lora_rank: 16 lora_alpha: 32
启动训练:
bash
llamafactory-cli train train_qwen36_lora.yaml
6.2 使用 Unsloth(显存优化)
Unsloth 通过显存优化技术,可在消费级显卡上高效完成大模型微调:
python
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="./Qwen3.6-35B-A3B",
max_seq_length=2048,
load_in_4bit=True, # 4-bit 量化加载
)
model = FastLanguageModel.get_peft_model(
model,
r=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
lora_alpha=32,
use_gradient_checkpointing="unsloth",
)
# ... 训练代码
6.3 微调场景示例
法律合同审查:用 1000+ 份标注过的合同条款数据微调,让模型掌握法律文书的审查要点。
医疗问答:基于公开医学文献和病历数据,构建本地化的医疗咨询助手。
代码补全:利用 Qwen3.6 已有的强大编程能力,用公司内部代码库进行领域适配。
七、构建本地 Agent 应用
7.1 Agentic RAG 系统
Qwen3.6 系列在智能体编程方面表现卓越,可与 OpenClaw、Qwen Code、Claude Code 等主流 Agent 框架深度兼容。
搭建一个完全本地化的 RAG 系统:
python
from langchain_community.llms import VLLM
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA
# 1. 初始化 Qwen3.6
llm = VLLM(
model="./Qwen3.6-35B-A3B",
trust_remote_code=True,
tensor_parallel_size=1,
)
# 2. 加载本地文档并创建向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh")
vectorstore = FAISS.from_documents(documents, embeddings)
# 3. 创建 RAG 链
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
retriever=vectorstore.as_retriever(),
)
7.2 典型应用场景
-
本地知识库问答:企业文档、技术手册的智能检索与问答
-
代码助手:仓库级代码理解、跨文件编辑、终端命令执行
-
多模态 Agent:利用 Qwen3.6 的原生多模态能力处理图像、视频与文本混合输入
八、性能参考与总结
实测数据
| 场景 | 硬件 | 模型 | 性能 |
|---|---|---|---|
| 推理 | RX 7900 XT (20GB) | Qwen3.6-35B-A3B | 流畅运行,Q4_K_M 量化 |
| 推理 | RX 6700 XT (12GB) + 32GB RAM | Qwen3.6-27B | 上下文窗口可推至 50k+ |
| 推理 (云) | AMD GPU (192GB) | Qwen3.6-27B-FP8 | MTP 加速 54.48 tok/s |
关键 Takeaways
-
选对硬件:RDNA 3 架构 + 16GB+ 显存是 Radeon 跑大模型的黄金组合
-
Linux 是王道:别在 Windows 上折磨自己,Ubuntu 22.04 + ROCm 7.0 是最稳的
-
量化是核心:FP8 或 GGUF Q4_K_M 可让显存占用降低一半,6GB 也能跑
-
MTP 加速真香:开启后吞吐量提升 2.5 倍
-
微调门槛低:LLaMA-Factory + LoRA,消费级显卡也能搞定
Radeon 显卡早已不是“只能打游戏”的配角。在 ROCm 生态的快速演进下,它正成为高性价比本地 AI 开发的绝佳选择。现在,轮到你来亲手验证了。
加入AMD AI开发者计划,领取200小时免费云算力
更多推荐

所有评论(0)