Qwen3.5-35B-A3B (GGUF)部署到 ComfyUI

jiang_changsheng

2172人浏览 · 2026-03-04 08:56:32

jiang_changsheng · 2026-03-04 08:56:32 发布

Qwen3.5-35B-A3B (GGUF) 这个强大的视觉语言模型，部署到 ComfyUI 中， Anaconda 管理环境，

💡 核心问题解答

能部署在 ComfyUI
通过一个专门的插件 ComfyUI-GGUF，ComfyUI 可以原生支持加载和运行 GGUF 格式的模型。这个插件明确支持 Qwen2VL/Qwen3 系列的视觉语言模型，并且兼容你之前看好的 IQ4_XS 等量化格式。这意味着你可以将 Qwen3.5 作为 ComfyUI 工作流的一部分，用于图像理解和多模态任务。
能用 Anaconda 管理环境，并用 SGLang 加速框架吗？
- Anaconda：可以。 你完全可以使用 Anaconda 为 ComfyUI 创建一个独立的 Python 环境，这与我们之前讨论的环境管理思路一致。
- SGLang：情况比较复杂。
  - SGLang 是独立服务：SGLang 本身是一个独立的、高性能的大模型推理服务框架。它运行后会启动一个 API 服务器，通过 HTTP 接口对外提供模型服务。
  - ComfyUI 的加载机制：而 ComfyUI-GGUF 插件的工作原理是在 ComfyUI 内部直接加载 GGUF 模型文件，它通过自己的量化引擎（GGMLOps）在 PyTorch 层面对模型进行即时反量化并执行推理。
  - 结论：SGLang 和 ComfyUI-GGUF 是两条并行的技术路线，它们通常不直接结合使用。在 ComfyUI 中加载 GGUF 模型，本身就利用了 GGUF 格式内存映射和即时反量化的加速优势，足以在你的 22GB 显存上高效运行。

因此，正确的策略是：在 Anaconda 环境中，安装 ComfyUI 和 ComfyUI-GGUF 插件，直接加载 GGUF 模型文件进行推理。 这样既能满足你的工具链偏好，也能获得理想的性能。

📝 详细部署教程

第一步：环境准备 (使用 Anaconda)

打开你的 Anaconda Prompt 或 PowerShell，执行以下命令。

bash

# 1. 创建名为 comfyui_qwen 的新环境，指定 Python 3.10
conda create -n comfyui_qwen python=3.10 -y

# 2. 激活新环境
conda activate comfyui_qwen

# 3. 安装 PyTorch（这是 ComfyUI 的基础，需包含 CUDA 支持）
#    根据你的 CUDA 版本选择合适的命令，以下以 CUDA 12.1 为例
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia -y

# 4. 验证 PyTorch 和 CUDA 是否安装成功
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
# 如果输出 True，说明一切正常。

第二步：下载必要的模型文件

你需要准备两个文件：主模型文件 和 视觉投影文件。

下载主模型文件：是 Qwen3.5-35B-A3B-IQ4_XS.gguf (约 20.5 GB)。
下载视觉投影文件：为了让模型能“看懂”图片，你还需要一个 mmproj-*.gguf 文件。在同一个 GGUF 仓库（如 unsloth/Qwen3.5-35B-A3B-GGUF）中，选择 mmproj-F16.gguf (约 918 MB) 即可。

你可以用我们之前讨论过的 huggingface-cli 命令来下载，确保使用镜像源并开启断点续传。

bash

# 设置镜像源 (PowerShell)
$env:HF_ENDPOINT = "https://hf-mirror.com"

# 下载两个文件到当前目录下的 Qwen35B 文件夹
huggingface-cli download unsloth/Qwen3.5-35B-A3B-GGUF `
  --include "Qwen3.5-35B-A3B-IQ4_XS.gguf" "mmproj-F16.gguf" `
  --local-dir ./Qwen35B `
  --local-dir-use-symlinks False `
  --resume-download

第三步：安装 ComfyUI 和 GGUF 插件

下载 ComfyUI：访问 ComfyUI 的官方 GitHub 仓库，下载 ComfyUI_windows_portable_nvidia.7z 压缩包，解压到你想要的位置，例如 D:\ComfyUI。
放置模型文件：将上一步下载好的两个 .gguf 文件，都放到 D:\ComfyUI\models\unet\ 文件夹下。ComfyUI-GGUF 插件会从这个目录读取模型。
安装 GGUF 插件：
- 进入 ComfyUI 的 custom_nodes 文件夹：cd D:\ComfyUI\custom_nodes
- 使用 git 命令克隆插件仓库：
  
  bash
```
git clone https://github.com/city96/ComfyUI-GGUF.git
```
- 如果你没有安装 git，也可以直接下载该仓库的 ZIP 压缩包，解压到 custom_nodes 文件夹中，并将文件夹重命名为 ComfyUI-GGUF。

第四步：启动 ComfyUI 并加载模型

启动 ComfyUI：
- 进入 ComfyUI 的主目录：cd D:\ComfyUI
- 重要： 确保你是在之前创建的 comfyui_qwen Conda 环境中启动 ComfyUI。因为我们将模型文件放在了 unet 目录，插件才能正确识别。
- 运行启动脚本：python main.py
- 启动成功后，终端会显示一个本地地址（通常是 http://127.0.0.1:8188），在浏览器中打开它。
在 ComfyUI 中构建工作流：
- 在节点菜单中，找到 “bootleg” 分类（这是 ComfyUI-GGUF 插件添加的）。
- 添加一个 UnetLoaderGGUF 节点。
- 在节点的下拉菜单中，你应该能看到你刚刚放进去的 Qwen3.5-35B-A3B-IQ4_XS.gguf 文件，选中它。这个节点负责加载扩散模型的主干部分。
- 添加一个 CLIPLoaderGGUF 节点。
- 在它的下拉菜单中，选择 mmproj-F16.gguf 文件。这个节点负责加载文本编码器和视觉投影层，是模型能理解文字和图像的关键。
- 接着，你可以像往常一样，添加 CLIPTextEncode (用于输入提示词)、VAELoader (加载 VAE 模型)、KSampler 和 VAEDecode 等节点，并将它们正确连接起来，构建一个标准的文生图或图生图工作流。