ChatGPT Image Jun 24, 2026, 06_35_46 PM.png

Flux2-Klein 本地部署实战

本地生图一直卡在同一个死循环:云端模型画得漂亮,但改 prompt 就花钱、批量出图还得排队,隐私更别提;本地 FLUX.1 dev FP8 能打,可 24GB 卡跑起来显存紧张、速度拖后腿,想快速迭代、接 ComfyUI 工作流基本是奢望。

Black Forest Labs 新出的轻量模型到底能不能打破这个僵局?我用 RX 7900 XTX 24GB 实测了一遍,不整虚的直接把大家最关心的几个问题一次性说透:

  1. 4B 和 9B 怎么选?
  2. RTX 3090 / 7900 XTX 这类 24GB 卡到底稳不稳?
  3. 谁更适合当主力?
  4. 跟 FLUX.1 dev FP8 比,实际体感差多少?
  5. 部署踩了哪些坑?

结论先说:

  • 12GB 显卡优先玩 4B。
  • 24GB 显卡(3090/4090/7900XTX)可以直接把 9B FP8 / kv-fp8 当主力。
  • 4B 别丢,留着做快速预览、批量测试和草图非常舒服。

为什么要测 Flux2-Klein

以前本地生图最大的毛病不是模型不行,是太重、太慢、太吃资源,嵌不进日常流程。FLUX.1 dev FP8 画质能看,但 24GB 卡上跑起来显存和速度都紧张。一天要做一堆封面、首帧、角色图、分镜的时候,它实在不够轻快。

我要的是一个能天天跑、反复改、批量出图、接进工作流的方案,不是偶尔出一张极限画质图。Klein 的价值就在这里:试 prompt 快、换 seed 快、出草图快、做候选快,配合 ComfyUI 自动化刚好。

所以这次不跑分,只看它能不能顶进真实生产。


Flux2-Klein 到底是啥

7271d0b9-5b69-40e4-907e-da846dc65384.webp

FLUX.2 [klein] 把文生图、图像编辑、单参考图/多参考图编辑、迭代修改这些能力揉进了一个轻量架构。对内容创作者来说,以前要拼好几个模型加一堆插件才能串起来的流程,现在一个模型就能扛大部分。

它不是文字渲染最强,也不是极限画质最顶,但速度、编辑和本地部署效率是真不错。


4B 和 9B 怎么选

版本 定位 适合谁
Klein-4B 轻量、高速、许可证友好 12G-16G 卡、商用开发、快速预览
Klein-9B FP8/kv-fp8 画质更好、编辑更稳、综合体验强 24G 卡当主力生图用

简单说:4B 是快反模型,9B 是主力成图模型。
12G 卡(比如 4070)别硬刚 9B,先让 4B 稳跑。24G 卡别只玩 4B,9B FP8 或 kv-fp8 值得直接进工作流。


我的测试环境

没用云,全在本地 ComfyUI 上跑。

GPU:AMD RX 7900 XTX 24GB
系统:Ubuntu,ROCm 7.2.4,PyTorch 2.11.0+rocm7.2
ComfyUI:0.23.0
启动参数:python main.py --listen 0.0.0.0 --port 8188 --disable-async-offload
内存:32GB
测试分辨率:1024x1024,batch size 1,euler 采样器 20 步

这套参数贴近日常用法,不是官方那种 4 步极限蒸馏跑分,所以速度看起来没那么夸张,但反映实际体感。


Klein-4B 实测

在 7900XTX 上 4B 比预期还稳。

  • 分辨率 1024x1024,20 步 euler
  • 峰值显存约 16.7–16.9 GB
  • 换 seed 出图约 33–34 秒
  • 缓存重复跑可到 16–17 秒

显存够用,速度够快,特别适合封面候选、prompt 调试。跟 FLUX.1 dev FP8 一比,效率提升立竿见影。


和 FLUX.1 dev FP8 对比

同环境,同提示词(红色机器人、雨夜街道、霓虹反射),1024x1024:

方案 速度 峰值显存 感受
FLUX.1 dev FP8 冷启动 约 95–98 秒 约 21 GB 能跑,但沉重
FLUX.1 dev FP8 热启动 约 67 秒 约 21 GB 能用,不算快
Klein-4B 冷启动 约 33 秒 16.7 GB 明显轻快
Klein-4B 热启动 约 33–34 秒 16.9 GB 很适合日常
Klein-4B 缓存重复跑 约 16–17 秒 16.9 GB 预览舒坦

dev FP8 是画质基线,但 Klein-4B 是能嵌进工作流里的日用模型。偶尔出一张图 dev FP8 还行,一旦每天批量做内容,4B 的速度和显存优势就太明显了。


Klein-9B kv-fp8 实测

模型组合:

flux-2-klein-9b-kv-fp8.safetensors
qwen_3_8b_fp8mixed.safetensors
flux2-vae.safetensors

1024x1024,20 步 euler,7900XTX 成功出图,不 OOM。

  • 冷启动出图约 57–58 秒,峰值显存约 20.15 GB
  • 热启动出图约 33–34 秒,峰值显存约 18.92 GB

24G 卡跑 9B kv-fp8 不是“理论可跑”,是真的能进工作流。当然得记住,batch size 保持 1,别同时挂几个大模型,别用错文本编码器,offload 策略合理,稳稳的。


4B 和 9B 谁更适合日常

9B 细节更密,复杂场景更稳,多参考图编辑更强,适合做最终输出。
4B 快、省显存,适合批量测试和快速预览,许可证也更友好。

别二选一,24G 卡的正确姿势是:

  • 4B:快速预览、试 prompt、自动草图
  • 9B:主力成图、多参考图编辑、最终画面

两者都留着,互补。


不同显卡怎么选

  • RTX 4070 / 12GB → 认准 Klein-4B FP8,先跑稳别多想。
  • RTX 4070 Ti SUPER / 16GB → 4B 主力,9B 可以浅试,但别当生产主力。
  • RTX 3090 / 24GB → 9B FP8 主力,4B 预览,别浪费那 24G 显存。
  • RX 7900 XTX / 24GB → 9B FP8/kv-fp8 主力,只要 ROCm 环境调通就没问题。
  • RTX 4090 / 24GB → 9B FP8 主力,4B 备用。
  • RTX 5090 / 32GB → 9B FP8 随便玩,更高分辨率随便试。

竞品需要比吗?

08c30684-eb92-402e-a259-341d8b0aeb03.webp

不打算长篇大论比来比去。很多测评把文字渲染放第一位,但对真实创作者,更重要的是:能稳跑、能快出、能接 ComfyUI、能参考图编辑、能批量测、能撑封面和分镜首帧。

需要画面里有精致中文标题的,后期软件比任何模型都靠谱。海报、封面主体用 Klein 生成,文字后期加,效率最高。SD3、Qwen-Image 当画面内文字的补充就好,别硬让生图模型扛所有。


踩坑记录

最大的坑不是下载,是工作流——Flux2-Klein 不能套用 FLUX.1 的 checkpoint 流程。

FLUX.1 dev 老路子:CheckpointLoaderSimple → CLIPTextEncode → KSampler …
Klein 需要拆分加载:UNETLoader、CLIPLoader、VAELoader,搭配 EmptyFlux2LatentImage、Flux2Scheduler、BasicGuider、SamplerCustomAdvanced 等。

我栽在两个地方:

  1. 用了 CLIPTextEncodeFlux 直接报 KeyError: 't5xxl'。Klein 文本编码器是 Qwen3,不是 T5XXL,这里必须用 CLIPTextEncode
  2. Flux2Scheduler 只需要 steps、width、height,别把 model 怼进去,否则会报 unexpected keyword argument 'model'。让它只生成 sigmas 就行。

谁适合玩

有 3090/4090/7900XTX,想做本地内容生产,经常搞封面、首帧、角色图,想用 ComfyUI 串自动化流程,不想天天依赖在线生图的,Klein 很适合。偶尔玩一张图的话,在线平台够用了。


最终建议

我的日常配置思路:

  • 主力:Flux2-Klein-9B FP8 / kv-fp8
  • 快反:Flux2-Klein-4B
  • 基线对比:FLUX.1 dev FP8
  • 文字:后期处理
  • 视频首帧、批量草图:Klein-9B 出成品,4B 冲量

硬件简明推荐:

硬件 推荐
RTX 4070 / 12GB Klein-4B
RTX 4070 Ti SUPER / 16GB Klein-4B 主力,9B 实验
RTX 3090 / 24GB Klein-9B FP8 主力
RX 7900 XTX / 24GB Klein-9B FP8 / kv-fp8 主力
RTX 4090 / 24GB Klein-9B FP8 主力
RTX 5090 / 32GB Klein-9B FP8 主力

一句话:12G 玩 4B,24G 上 9B。4B 不单是低配替代,是快反神器;9B 不只能跑,是真能扛主力。


结语

测下来,Klein 不是跑分玩具,是能嵌进内容生产链路的模型。24G 卡上 9B 已稳,4B 也千万别扔——一个出活,一个探路,配合 ComfyUI 和后期工具,日常输出效率能提一大截。

这篇文章只讲到「能不能跑、怎么选、实际体感」,想看完整可落地的部署方案,包括:

    1. Flux2-Klein-4B / 9B 需要下载哪些模型文件;
  1. 在 ComfyUI 中如何放置这些文件;
  2. 为什么不能直接套用旧的 FLUX.1 工作流;
  3. 我在 RX 7900 XTX 搭配 ROCm 环境下的实测数据;
  4. RTX 3090 / 4090 用户应该如何看待这套方案;
  5. Flux2Scheduler、CLIPTextEncode、文本编码器等常见坑点;
  6. Apple Silicon Mac 是否也能运行;
  7. 出错后的排查顺序。

这些全部收录在我的博客《Flux2-Klein 本地部署全指南》里,需要的小伙伴可以去博客观看。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐