ComfyUI + Pixelle-Video + Ollama 视频生成全链路说明(RTX 3060Ti 8G适配)
一、工具链整体架构与组件定位
整套文生视频方案由三层工具协同构成,底层基于阿里开源的 Wan 视频大模型,各组件分工明确、相互依赖:
1. ComfyUI:底层推理运行平台
ComfyUI 是节点式 AI 生成工具,作为整套方案的运行载体,负责加载所有模型文件、调度显卡算力、执行视频推理计算、输出最终成片。Pixelle-Video 工作流、Wan 系列模型、自定义节点插件均需部署在 ComfyUI 目录内才能生效。相比传统可视化界面,ComfyUI 显存占用更低、流程可控性更强,适配低显存设备运行高负载视频生成任务。
2. Pixelle-Video-main:全流程视频工作流套件
Pixelle-Video 是基于 ComfyUI 构建的开源全自动短视频引擎,内置封装完成的 Wan 视频模型工作流,无需手动从零搭建节点连线,可实现从文案到成片的完整自动化流程。该套件依赖专属自定义节点插件,未安装对应插件时会出现missing_node_type类报错;同时必须搭配 Wan 系列专属模型文件,否则无法通过模型校验,无法启动视频生成。
3. Ollama(qwen2.5:7b-instruct-q4_K_M):本地大语言模型辅助
Ollama 是本地大模型运行工具,搭载的 qwen2.5:7b-instruct-q4_K_M 为 4 位量化版对话模型,在链路中承担两类作用:一是可接入 Pixelle-Video 作为文案生成后端,自动撰写视频解说词与生成提示词;二是可独立使用,用于打磨视频正负向提示词、排查 ComfyUI 报错、优化生成参数方案。该模型独立运行于 Ollama 服务,与 ComfyUI 共享显卡显存,需合理分配显存资源。
二、Pixelle-Video 工作流核心模型依赖说明
Pixelle-Video 的视频生成能力基于 Wan 系列大模型,该模型拆分为三个独立文件,全部为运行必需,缺一不可,需分别放入 ComfyUI 对应的模型目录中。
1. UNET 模型:WanT2V_MasterModel.safetensors
-
存放路径:
ComfyUI/models/unet/ -
核心作用:视频画面生成的主体模型,负责根据文字描述计算每一帧画面的像素、画面构图、动态变化、镜头运动,是整个视频生成最核心的文件。
-
缺失后果:完全无法生成任何视频帧,直接触发模型加载失败校验报错。
2. CLIP 模型:umt5_xxl_fp8_e4m3fn_scaled.safetensors
-
存放路径:
ComfyUI/models/clip/ -
核心作用:Wan 模型专属文字编码器,把输入的中英文提示词转换成 AI 可识别的向量数据,让模型准确理解生成需求。
-
版本说明:Wan 系列采用 UMT5 大文本编码器,与 SD 图片模型的 CLIP 不通用,必须使用该专用版本。当前 FP8 量化版专为低显存显卡优化,是 8G 显存环境的必选版本。
-
缺失后果:提示词无法解析,直接触发校验报错,工作流无法启动。
3. VAE 模型:wan_2.1_vae.safetensors
-
存放路径:
ComfyUI/models/vae/ -
核心作用:视频画面解码器,把 AI 生成的压缩潜空间数据还原为正常清晰的 RGB 视频画面,负责色彩还原与画质优化。
-
缺失后果:画面发灰、颜色失真、模糊偏色,无法渲染出正常色彩的视频。
三、RTX 3060Ti 8G 显卡运行配置与限制
该硬件配置可正常运行整套工具链,但有严格的显存占用限制,需遵守以下配置要求以保障稳定运行。
可行配置(8G 显存稳定运行)
-
模型版本优先选用量化版:CLIP 固定使用
umt5_xxl_fp8_e4m3fn_scaled.safetensors,UNET 优先选用 FP8 量化版本,禁止直接使用 FP16 原版大模型,避免显存溢出。 -
生成参数控制:视频分辨率建议控制在 720×1280 以内,推荐稳妥参数为 512×832;单次生成帧数不超过 24 帧,禁止一次性生成 60 帧以上长视频。
-
ComfyUI 保持默认
NORMAL_VRAM显存优化模式,不要开启高速显存模式,优先保障显存占用可控。 -
生成视频时需关闭 Ollama 服务:qwen2.5:7b 量化模型约占用 2-3GB 显存,与视频生成同时运行会叠加占用,极易触发 CUDA 显存溢出崩溃;可先打磨完提示词,退出 Ollama 后再启动视频生成。
8G 显存的局限性
-
若拉满 1080P 分辨率且帧数超过 32 帧,大概率会出现 CUDA out of memory 显存溢出崩溃。
-
无法同时加载多个大模型,运行视频工作流前需关闭其他占用显存的程序与后台服务。
-
视频生成速度显著慢于 16G、24G 显存的显卡,单段 24 帧视频通常需要数分钟生成时间。
四、整合使用建议
-
磁盘空间预留:三个 Wan 核心模型总大小约十几 GB,叠加 ComfyUI 程序、Ollama 模型文件,共需预留 30GB 以上磁盘空间,避免存储空间不足导致下载、生成中断。
-
文件校验:所有模型文件名必须与工作流要求完全一致,且准确放入对应目录,放错文件夹或文件名有误都会触发 “模型不存在” 的校验报错。
-
推荐操作顺序:先通过 Ollama 的 qwen2.5 模型打磨视频提示词与参数方案,关闭 Ollama 服务后,再打开 ComfyUI 加载 Pixelle-Video 工作流,填入提示词后启动生成,可最大化利用显存、规避报错。
-
新手入门路径:先使用基础 SD1.5 图片工作流熟悉 ComfyUI 的节点操作逻辑,再逐步尝试 Pixelle-Video 视频工作流,避免一次性同时处理节点缺失、模型缺失、显存不足等多类问题。
更多推荐
所有评论(0)