ComfyUI + Pixelle-Video + Ollama 视频生成全链路说明（RTX 3060Ti 8G适配）

weixin_47696437

230人浏览 · 2026-06-22 18:54:27

weixin_47696437 · 2026-06-22 18:54:27 发布

一、工具链整体架构与组件定位

整套文生视频方案由三层工具协同构成，底层基于阿里开源的 Wan 视频大模型，各组件分工明确、相互依赖：

1. ComfyUI：底层推理运行平台

ComfyUI 是节点式 AI 生成工具，作为整套方案的运行载体，负责加载所有模型文件、调度显卡算力、执行视频推理计算、输出最终成片。Pixelle-Video 工作流、Wan 系列模型、自定义节点插件均需部署在 ComfyUI 目录内才能生效。相比传统可视化界面，ComfyUI 显存占用更低、流程可控性更强，适配低显存设备运行高负载视频生成任务。

2. Pixelle-Video-main：全流程视频工作流套件

Pixelle-Video 是基于 ComfyUI 构建的开源全自动短视频引擎，内置封装完成的 Wan 视频模型工作流，无需手动从零搭建节点连线，可实现从文案到成片的完整自动化流程。该套件依赖专属自定义节点插件，未安装对应插件时会出现missing_node_type类报错；同时必须搭配 Wan 系列专属模型文件，否则无法通过模型校验，无法启动视频生成。

3. Ollama（qwen2.5:7b-instruct-q4_K_M）：本地大语言模型辅助

Ollama 是本地大模型运行工具，搭载的 qwen2.5:7b-instruct-q4_K_M 为 4 位量化版对话模型，在链路中承担两类作用：一是可接入 Pixelle-Video 作为文案生成后端，自动撰写视频解说词与生成提示词；二是可独立使用，用于打磨视频正负向提示词、排查 ComfyUI 报错、优化生成参数方案。该模型独立运行于 Ollama 服务，与 ComfyUI 共享显卡显存，需合理分配显存资源。

二、Pixelle-Video 工作流核心模型依赖说明

Pixelle-Video 的视频生成能力基于 Wan 系列大模型，该模型拆分为三个独立文件，全部为运行必需，缺一不可，需分别放入 ComfyUI 对应的模型目录中。

1. UNET 模型：`WanT2V_MasterModel.safetensors`

存放路径：ComfyUI/models/unet/
核心作用：视频画面生成的主体模型，负责根据文字描述计算每一帧画面的像素、画面构图、动态变化、镜头运动，是整个视频生成最核心的文件。
缺失后果：完全无法生成任何视频帧，直接触发模型加载失败校验报错。

2. CLIP 模型：`umt5_xxl_fp8_e4m3fn_scaled.safetensors`

存放路径：ComfyUI/models/clip/
核心作用：Wan 模型专属文字编码器，把输入的中英文提示词转换成 AI 可识别的向量数据，让模型准确理解生成需求。
版本说明：Wan 系列采用 UMT5 大文本编码器，与 SD 图片模型的 CLIP 不通用，必须使用该专用版本。当前 FP8 量化版专为低显存显卡优化，是 8G 显存环境的必选版本。
缺失后果：提示词无法解析，直接触发校验报错，工作流无法启动。

3. VAE 模型：`wan_2.1_vae.safetensors`

存放路径：ComfyUI/models/vae/
核心作用：视频画面解码器，把 AI 生成的压缩潜空间数据还原为正常清晰的 RGB 视频画面，负责色彩还原与画质优化。
缺失后果：画面发灰、颜色失真、模糊偏色，无法渲染出正常色彩的视频。

三、RTX 3060Ti 8G 显卡运行配置与限制

该硬件配置可正常运行整套工具链，但有严格的显存占用限制，需遵守以下配置要求以保障稳定运行。

可行配置（8G 显存稳定运行）

模型版本优先选用量化版：CLIP 固定使用umt5_xxl_fp8_e4m3fn_scaled.safetensors，UNET 优先选用 FP8 量化版本，禁止直接使用 FP16 原版大模型，避免显存溢出。
生成参数控制：视频分辨率建议控制在 720×1280 以内，推荐稳妥参数为 512×832；单次生成帧数不超过 24 帧，禁止一次性生成 60 帧以上长视频。
ComfyUI 保持默认NORMAL_VRAM显存优化模式，不要开启高速显存模式，优先保障显存占用可控。
生成视频时需关闭 Ollama 服务：qwen2.5:7b 量化模型约占用 2-3GB 显存，与视频生成同时运行会叠加占用，极易触发 CUDA 显存溢出崩溃；可先打磨完提示词，退出 Ollama 后再启动视频生成。

8G 显存的局限性

若拉满 1080P 分辨率且帧数超过 32 帧，大概率会出现 CUDA out of memory 显存溢出崩溃。
无法同时加载多个大模型，运行视频工作流前需关闭其他占用显存的程序与后台服务。
视频生成速度显著慢于 16G、24G 显存的显卡，单段 24 帧视频通常需要数分钟生成时间。

四、整合使用建议

磁盘空间预留：三个 Wan 核心模型总大小约十几 GB，叠加 ComfyUI 程序、Ollama 模型文件，共需预留 30GB 以上磁盘空间，避免存储空间不足导致下载、生成中断。
文件校验：所有模型文件名必须与工作流要求完全一致，且准确放入对应目录，放错文件夹或文件名有误都会触发 “模型不存在” 的校验报错。
推荐操作顺序：先通过 Ollama 的 qwen2.5 模型打磨视频提示词与参数方案，关闭 Ollama 服务后，再打开 ComfyUI 加载 Pixelle-Video 工作流，填入提示词后启动生成，可最大化利用显存、规避报错。
新手入门路径：先使用基础 SD1.5 图片工作流熟悉 ComfyUI 的节点操作逻辑，再逐步尝试 Pixelle-Video 视频工作流，避免一次性同时处理节点缺失、模型缺失、显存不足等多类问题。

亚马逊云科技技术品牌专区

更多推荐

Gemini 2.5 Flash Lite 新手极速上手指南

在开发智能应用时，很多开发者常常面临一个两难选择：是追求模型的强大理解能力，还是担心高昂的算力成本和复杂的部署流程？特别是在处理长文档分析、图片内容识别或需要实时交互的场景下，传统方案往往显得力不从心。要么响应速度慢得让人失去耐心，要么在处理复杂上下文时出现“遗忘”现象，导致回答断章取义。其实，随着新一代大模型 API 的成熟，这些问题已经有了更优雅的解法。不需要自己搭建庞大的服务器集群，也不必深

亚马逊云科技技术品牌专区

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑

亚马逊云科技技术品牌专区

Kimi 智能助手新手入门与实战指南

在处理长篇技术文档或行业研报时，我们往往只需要其中的核心结论或特定数据。利用 AI 进行长文档摘要，可以极大缩短信息获取周期。操作时，直接将文档内容复制粘贴到对话框中（注意遵守平台的长度限制，若超长可分段处理），然后配合精准的指令。假设你手头有一份五十页的《云计算架构演进趋势报告》，你可以输入：“请阅读以下关于云计算架构的报告内容。首先，用不超过 200 字总结全文的核心观点。其次，提取出文中提到