Qwen3.5-35B-A3B (GGUF)部署到 ComfyUI
Qwen3.5-35B-A3B (GGUF) 这个强大的视觉语言模型,部署到 ComfyUI 中, Anaconda 管理环境,
💡 核心问题解答
-
能部署在 ComfyUI
通过一个专门的插件 ComfyUI-GGUF,ComfyUI 可以原生支持加载和运行 GGUF 格式的模型。这个插件明确支持 Qwen2VL/Qwen3 系列的视觉语言模型,并且兼容你之前看好的 IQ4_XS 等量化格式。这意味着你可以将 Qwen3.5 作为 ComfyUI 工作流的一部分,用于图像理解和多模态任务。 -
能用 Anaconda 管理环境,并用 SGLang 加速框架吗?
-
Anaconda:可以。 你完全可以使用 Anaconda 为 ComfyUI 创建一个独立的 Python 环境,这与我们之前讨论的环境管理思路一致。
-
SGLang:情况比较复杂。
-
SGLang 是独立服务:SGLang 本身是一个独立的、高性能的大模型推理服务框架。它运行后会启动一个 API 服务器,通过 HTTP 接口对外提供模型服务。
-
ComfyUI 的加载机制:而 ComfyUI-GGUF 插件的工作原理是在 ComfyUI 内部直接加载 GGUF 模型文件,它通过自己的量化引擎(
GGMLOps)在 PyTorch 层面对模型进行即时反量化并执行推理。 -
结论:SGLang 和 ComfyUI-GGUF 是两条并行的技术路线,它们通常不直接结合使用。在 ComfyUI 中加载 GGUF 模型,本身就利用了 GGUF 格式内存映射和即时反量化的加速优势,足以在你的 22GB 显存上高效运行。
-
-
因此,正确的策略是:在 Anaconda 环境中,安装 ComfyUI 和 ComfyUI-GGUF 插件,直接加载 GGUF 模型文件进行推理。 这样既能满足你的工具链偏好,也能获得理想的性能。
📝 详细部署教程
第一步:环境准备 (使用 Anaconda)
打开你的 Anaconda Prompt 或 PowerShell,执行以下命令。
bash
# 1. 创建名为 comfyui_qwen 的新环境,指定 Python 3.10 conda create -n comfyui_qwen python=3.10 -y # 2. 激活新环境 conda activate comfyui_qwen # 3. 安装 PyTorch(这是 ComfyUI 的基础,需包含 CUDA 支持) # 根据你的 CUDA 版本选择合适的命令,以下以 CUDA 12.1 为例 conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia -y # 4. 验证 PyTorch 和 CUDA 是否安装成功 python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())" # 如果输出 True,说明一切正常。
第二步:下载必要的模型文件
你需要准备两个文件:主模型文件 和 视觉投影文件。
-
下载主模型文件:是
Qwen3.5-35B-A3B-IQ4_XS.gguf(约 20.5 GB)。 -
下载视觉投影文件:为了让模型能“看懂”图片,你还需要一个
mmproj-*.gguf文件。在同一个 GGUF 仓库(如unsloth/Qwen3.5-35B-A3B-GGUF)中,选择mmproj-F16.gguf(约 918 MB) 即可。
你可以用我们之前讨论过的 huggingface-cli 命令来下载,确保使用镜像源并开启断点续传。
bash
# 设置镜像源 (PowerShell) $env:HF_ENDPOINT = "https://hf-mirror.com" # 下载两个文件到当前目录下的 Qwen35B 文件夹 huggingface-cli download unsloth/Qwen3.5-35B-A3B-GGUF ` --include "Qwen3.5-35B-A3B-IQ4_XS.gguf" "mmproj-F16.gguf" ` --local-dir ./Qwen35B ` --local-dir-use-symlinks False ` --resume-download
第三步:安装 ComfyUI 和 GGUF 插件
-
下载 ComfyUI:访问 ComfyUI 的官方 GitHub 仓库,下载
ComfyUI_windows_portable_nvidia.7z压缩包,解压到你想要的位置,例如D:\ComfyUI。 -
放置模型文件:将上一步下载好的两个
.gguf文件,都放到D:\ComfyUI\models\unet\文件夹下。ComfyUI-GGUF 插件会从这个目录读取模型。 -
安装 GGUF 插件:
-
进入 ComfyUI 的
custom_nodes文件夹:cd D:\ComfyUI\custom_nodes -
使用
git命令克隆插件仓库:bash
git clone https://github.com/city96/ComfyUI-GGUF.git
-
如果你没有安装
git,也可以直接下载该仓库的 ZIP 压缩包,解压到custom_nodes文件夹中,并将文件夹重命名为ComfyUI-GGUF。
-
第四步:启动 ComfyUI 并加载模型
-
启动 ComfyUI:
-
进入 ComfyUI 的主目录:
cd D:\ComfyUI -
重要: 确保你是在之前创建的
comfyui_qwenConda 环境中启动 ComfyUI。因为我们将模型文件放在了unet目录,插件才能正确识别。 -
运行启动脚本:
python main.py -
启动成功后,终端会显示一个本地地址(通常是
http://127.0.0.1:8188),在浏览器中打开它。
-
-
在 ComfyUI 中构建工作流:
-
在节点菜单中,找到 “bootleg” 分类(这是 ComfyUI-GGUF 插件添加的)。
-
添加一个
UnetLoaderGGUF节点。 -
在节点的下拉菜单中,你应该能看到你刚刚放进去的
Qwen3.5-35B-A3B-IQ4_XS.gguf文件,选中它。这个节点负责加载扩散模型的主干部分。 -
添加一个
CLIPLoaderGGUF节点。 -
在它的下拉菜单中,选择
mmproj-F16.gguf文件。这个节点负责加载文本编码器和视觉投影层,是模型能理解文字和图像的关键。 -
接着,你可以像往常一样,添加
CLIPTextEncode(用于输入提示词)、VAELoader(加载 VAE 模型)、KSampler和VAEDecode等节点,并将它们正确连接起来,构建一个标准的文生图或图生图工作流。
-
总结一下流程:你通过 Anaconda 创建了一个干净的环境,在这个环境中启动 ComfyUI,然后利用 ComfyUI-GGUF 插件的专用加载节点,直接调用了你下载好的两个 GGUF 文件。这样,Qwen3.5 强大的多模态理解能力就被无缝集成到了 ComfyUI 的工作流中。
更多推荐




所有评论(0)