一、为什么选择 Qwen 3.6?

2026 年 4 月,阿里云通义千问团队正式开源了 Qwen 3.6 系列模型。这一代模型有两个值得关注的版本:

  • Qwen3.6-27B:270 亿参数的稠密多模态模型,在智能体编程方面全面超越了前代开源旗舰 Qwen3.5-397B-A17B(总参数 3970 亿的 MoE 模型)。SWE-bench Verified 得分 77.2,Terminal-Bench 2.0 得分 59.3。

  • Qwen3.6-35B-A3B:采用 MoE 架构,总参数 350 亿、激活仅 30 亿,以极低的算力消耗实现与稠密模型相当的性能。

对于 Radeon 显卡用户来说,Qwen3.6-35B-A3B 尤其友好——仅 30 亿激活参数意味着 6GB 显存即可启动,而 16GB 以上显存则可以流畅运行 27B 版本。更重要的是,AMD 官方已宣布对 Qwen 3.6 系列实现 Day 0 支持,与 ROCm 7.0 和 vLLM 深度集成。

二、硬件选型:别被显存带宽忽悠了

在开始之前,必须先泼盆冷水:不是所有 A 卡都能跑大模型

AMD 的 ROCm 框架对 GPU 架构有严格筛选。如果你还在用 Polaris 架构的 RX 580,大概率会在编译阶段就碰壁。

推荐配置:

优先级 显卡型号 显存 适用场景
首选 RX 7900 XTX 24GB Qwen3.6-27B 全量推理 + 微调
推荐 RX 7900 XT 20GB Qwen3.6-27B 推理,轻量微调
入门 RX 7800 XT 16GB Qwen3.6-35B-A3B 流畅运行
尝鲜 RX 7600 8GB Qwen3.6-35B-A3B 基础推理

避坑要点

  • 首选 RDNA 3 架构(RX 7000 系列),对 ROCm 支持最完善

  • 显存即正义——16GB 是起步线,20GB 或 24GB 更从容

  • 千万别买“魔改版”或笔记本移动版核心,桌面版标准核心在 Linux 下的驱动支持要稳定得多

三、环境配置:驯服 ROCm 的“排雷”实录

Windows 下的 DirectML 虽然能用,但要想发挥 A 卡的全部实力,Linux 是唯一真神

3.1 系统准备

bash

# 推荐 Ubuntu 22.04 LTS,内核锁定在 6.5.x 版本
lsb_release -a
uname -r

3.2 安装 ROCm

bash

# 添加 AMD 官方源
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo apt install ./amdgpu-install_6.1.60100-1_all.deb
sudo amdgpu-install --usecase=rocm

# 关键一步:将用户加入 render 和 video 组(极其隐蔽,很多人卡在这里)
sudo usermod -a -G render,video $LOGNAME

# 重启后验证
rocminfo
# 如果看到 Name: gfx1100(RX 7900 系列),说明路通了

常见踩坑:内核版本过高会导致 DKMS 模块编译失败。解决方案是降级内核或手动添加 AMD 官方源锁定稳定版本。

3.3 Python 环境

ROCm 版本的 vLLM 需要 Python 3.12、ROCm 7.0 和 glibc >= 2.35

bash

# 使用 conda 创建独立环境
conda create -n qwen36 python=3.12
conda activate qwen36

# 安装 PyTorch with ROCm
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm7.0

四、模型部署:用 vLLM / SGLang 跑起来

4.1 使用 vLLM(推荐)

bash

# 安装 vLLM ROCm 版本
pip install vllm==0.20.1+rocm721

# 下载模型(从 HuggingFace 或 ModelScope)
pip install huggingface-hub
huggingface-cli download Qwen/Qwen3.6-35B-A3B --local-dir ./Qwen3.6-35B-A3B

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model ./Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --trust-remote-code \
    --max-model-len 8192

4.2 使用 SGLang(AMD 官方推荐)

AMD 官方提供了预构建的 Docker 镜像:

bash

# MI300X 系列使用
docker run -d -it \
    --ipc=host \
    --network=host \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --group-add video \
    --shm-size 32G \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --name qwen3.6 \
    lmsysorg/sglang:v0.5.10-rocm720-mi30x

# 启动服务
docker exec -it qwen3.6 bash
sglang serve --model-path Qwen/Qwen3.6-35B-A3B \
    --tensor-parallel-size 1 \
    --enable-flashinfer-allreduce-fusion \
    --attention-backend triton \
    --mem-fraction-static 0.8 \
    --trust-remote-code

4.3 使用 Ollama(最简方案)

对于不想折腾的开发者,Ollama 是最便捷的选择:

bash

# 安装 Ollama with ROCm 支持
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行 Qwen3.6
ollama run qwen3.6-35b-a3b

五、推理优化:榨干 Radeon 的每一分性能

5.1 FP8 量化

Qwen3.6 官方提供了 FP8 量化版本,显存占用可降低约一半:

bash

# 使用 FP8 版本
huggingface-cli download Qwen/Qwen3.6-27B-FP8 --local-dir ./Qwen3.6-27B-FP8

# vLLM 启动时自动识别 FP8 格式
python -m vllm.entrypoints.openai.api_server \
    --model ./Qwen3.6-27B-FP8 \
    --kv-cache-dtype fp8  # 开启 FP8 KV cache

5.2 MTP(Multi-Token Prediction)投机解码

Qwen3.6 支持 MTP 投机解码,可显著提升吞吐量。实测数据显示:

配置 Decode 吞吐量
Baseline 21.46 tok/s
MTP t4 54.48 tok/s(约 2.54x

小并发压测中,MTP 的 aggregate completion throughput 相对 baseline 提升约 2.5~2.8 倍

5.3 GGUF 量化(llama.cpp)

对于显存有限的场景,可以使用 llama.cpp 的 GGUF 量化:

bash

# 下载 GGUF 格式模型
# Q4_K_M 量化版本可在 6GB 显存下运行 Qwen3.6-35B-A3B
./llama-cli -m qwen3.6-35b-a3b-q4_k_m.gguf \
    -p "你的提示词" \
    -n 512 \
    -ngl 999  # 全部 offload 到 GPU

实测在 Radeon 上,Qwen3.6-35B-A3B Q4_K_M 版本可实现流畅的推理速度。

六、LoRA 微调:让模型学会你的专属知识

6.1 使用 LLaMA-Factory

LLaMA-Factory 是当前最流行的微调框架之一,对 ROCm 有良好支持。

bash

# 克隆仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .

# 准备数据集(JSON 格式)
# 例如:法律文书问答对、医疗病历 QA 等

LoRA 配置示例train_qwen36_lora.yaml):

yaml

model_name_or_path: ./Qwen3.6-35B-A3B
template: qwen
stage: sft
finetuning_type: lora
lora_target: all
dataset: your_dataset  # 你的数据集名称
output_dir: ./output/qwen36-lora
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 2.0e-4
num_train_epochs: 3.0
max_grad_norm: 1.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
lora_rank: 16
lora_alpha: 32

启动训练:

bash

llamafactory-cli train train_qwen36_lora.yaml

6.2 使用 Unsloth(显存优化)

Unsloth 通过显存优化技术,可在消费级显卡上高效完成大模型微调:

python

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="./Qwen3.6-35B-A3B",
    max_seq_length=2048,
    load_in_4bit=True,  # 4-bit 量化加载
)
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha=32,
    use_gradient_checkpointing="unsloth",
)
# ... 训练代码

6.3 微调场景示例

法律合同审查:用 1000+ 份标注过的合同条款数据微调,让模型掌握法律文书的审查要点。

医疗问答:基于公开医学文献和病历数据,构建本地化的医疗咨询助手。

代码补全:利用 Qwen3.6 已有的强大编程能力,用公司内部代码库进行领域适配。

七、构建本地 Agent 应用

7.1 Agentic RAG 系统

Qwen3.6 系列在智能体编程方面表现卓越,可与 OpenClaw、Qwen Code、Claude Code 等主流 Agent 框架深度兼容。

搭建一个完全本地化的 RAG 系统:

python

from langchain_community.llms import VLLM
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA

# 1. 初始化 Qwen3.6
llm = VLLM(
    model="./Qwen3.6-35B-A3B",
    trust_remote_code=True,
    tensor_parallel_size=1,
)

# 2. 加载本地文档并创建向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh")
vectorstore = FAISS.from_documents(documents, embeddings)

# 3. 创建 RAG 链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
)

7.2 典型应用场景

  • 本地知识库问答:企业文档、技术手册的智能检索与问答

  • 代码助手:仓库级代码理解、跨文件编辑、终端命令执行

  • 多模态 Agent:利用 Qwen3.6 的原生多模态能力处理图像、视频与文本混合输入

八、性能参考与总结

实测数据

场景 硬件 模型 性能
推理 RX 7900 XT (20GB) Qwen3.6-35B-A3B 流畅运行,Q4_K_M 量化
推理 RX 6700 XT (12GB) + 32GB RAM Qwen3.6-27B 上下文窗口可推至 50k+
推理 (云) AMD GPU (192GB) Qwen3.6-27B-FP8 MTP 加速 54.48 tok/s

关键 Takeaways

  1. 选对硬件:RDNA 3 架构 + 16GB+ 显存是 Radeon 跑大模型的黄金组合

  2. Linux 是王道:别在 Windows 上折磨自己,Ubuntu 22.04 + ROCm 7.0 是最稳的

  3. 量化是核心:FP8 或 GGUF Q4_K_M 可让显存占用降低一半,6GB 也能跑

  4. MTP 加速真香:开启后吞吐量提升 2.5 倍

  5. 微调门槛低:LLaMA-Factory + LoRA,消费级显卡也能搞定

Radeon 显卡早已不是“只能打游戏”的配角。在 ROCm 生态的快速演进下,它正成为高性价比本地 AI 开发的绝佳选择。现在,轮到你来亲手验证了。

 

加入AMD AI开发者计划,领取200小时免费云算力

https://s.csdn.cn/ik9E3m

 

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐