Flux2-Klein 本地部署实战:RTX 3090 / RX 7900 XTX 24GB 实测可用

Flux2-Klein 本地部署实战
本地生图一直卡在同一个死循环:云端模型画得漂亮,但改 prompt 就花钱、批量出图还得排队,隐私更别提;本地 FLUX.1 dev FP8 能打,可 24GB 卡跑起来显存紧张、速度拖后腿,想快速迭代、接 ComfyUI 工作流基本是奢望。
Black Forest Labs 新出的轻量模型到底能不能打破这个僵局?我用 RX 7900 XTX 24GB 实测了一遍,不整虚的直接把大家最关心的几个问题一次性说透:
- 4B 和 9B 怎么选?
- RTX 3090 / 7900 XTX 这类 24GB 卡到底稳不稳?
- 谁更适合当主力?
- 跟 FLUX.1 dev FP8 比,实际体感差多少?
- 部署踩了哪些坑?
结论先说:
- 12GB 显卡优先玩 4B。
- 24GB 显卡(3090/4090/7900XTX)可以直接把 9B FP8 / kv-fp8 当主力。
- 4B 别丢,留着做快速预览、批量测试和草图非常舒服。
为什么要测 Flux2-Klein
以前本地生图最大的毛病不是模型不行,是太重、太慢、太吃资源,嵌不进日常流程。FLUX.1 dev FP8 画质能看,但 24GB 卡上跑起来显存和速度都紧张。一天要做一堆封面、首帧、角色图、分镜的时候,它实在不够轻快。
我要的是一个能天天跑、反复改、批量出图、接进工作流的方案,不是偶尔出一张极限画质图。Klein 的价值就在这里:试 prompt 快、换 seed 快、出草图快、做候选快,配合 ComfyUI 自动化刚好。
所以这次不跑分,只看它能不能顶进真实生产。
Flux2-Klein 到底是啥

FLUX.2 [klein] 把文生图、图像编辑、单参考图/多参考图编辑、迭代修改这些能力揉进了一个轻量架构。对内容创作者来说,以前要拼好几个模型加一堆插件才能串起来的流程,现在一个模型就能扛大部分。
它不是文字渲染最强,也不是极限画质最顶,但速度、编辑和本地部署效率是真不错。
4B 和 9B 怎么选
| 版本 | 定位 | 适合谁 |
|---|---|---|
| Klein-4B | 轻量、高速、许可证友好 | 12G-16G 卡、商用开发、快速预览 |
| Klein-9B FP8/kv-fp8 | 画质更好、编辑更稳、综合体验强 | 24G 卡当主力生图用 |
简单说:4B 是快反模型,9B 是主力成图模型。
12G 卡(比如 4070)别硬刚 9B,先让 4B 稳跑。24G 卡别只玩 4B,9B FP8 或 kv-fp8 值得直接进工作流。
我的测试环境
没用云,全在本地 ComfyUI 上跑。
GPU:AMD RX 7900 XTX 24GB
系统:Ubuntu,ROCm 7.2.4,PyTorch 2.11.0+rocm7.2
ComfyUI:0.23.0
启动参数:python main.py --listen 0.0.0.0 --port 8188 --disable-async-offload
内存:32GB
测试分辨率:1024x1024,batch size 1,euler 采样器 20 步
这套参数贴近日常用法,不是官方那种 4 步极限蒸馏跑分,所以速度看起来没那么夸张,但反映实际体感。
Klein-4B 实测
在 7900XTX 上 4B 比预期还稳。
- 分辨率 1024x1024,20 步 euler
- 峰值显存约 16.7–16.9 GB
- 换 seed 出图约 33–34 秒
- 缓存重复跑可到 16–17 秒
显存够用,速度够快,特别适合封面候选、prompt 调试。跟 FLUX.1 dev FP8 一比,效率提升立竿见影。
和 FLUX.1 dev FP8 对比
同环境,同提示词(红色机器人、雨夜街道、霓虹反射),1024x1024:
| 方案 | 速度 | 峰值显存 | 感受 |
|---|---|---|---|
| FLUX.1 dev FP8 冷启动 | 约 95–98 秒 | 约 21 GB | 能跑,但沉重 |
| FLUX.1 dev FP8 热启动 | 约 67 秒 | 约 21 GB | 能用,不算快 |
| Klein-4B 冷启动 | 约 33 秒 | 16.7 GB | 明显轻快 |
| Klein-4B 热启动 | 约 33–34 秒 | 16.9 GB | 很适合日常 |
| Klein-4B 缓存重复跑 | 约 16–17 秒 | 16.9 GB | 预览舒坦 |
dev FP8 是画质基线,但 Klein-4B 是能嵌进工作流里的日用模型。偶尔出一张图 dev FP8 还行,一旦每天批量做内容,4B 的速度和显存优势就太明显了。
Klein-9B kv-fp8 实测
模型组合:
flux-2-klein-9b-kv-fp8.safetensors
qwen_3_8b_fp8mixed.safetensors
flux2-vae.safetensors
1024x1024,20 步 euler,7900XTX 成功出图,不 OOM。
- 冷启动出图约 57–58 秒,峰值显存约 20.15 GB
- 热启动出图约 33–34 秒,峰值显存约 18.92 GB
24G 卡跑 9B kv-fp8 不是“理论可跑”,是真的能进工作流。当然得记住,batch size 保持 1,别同时挂几个大模型,别用错文本编码器,offload 策略合理,稳稳的。
4B 和 9B 谁更适合日常
9B 细节更密,复杂场景更稳,多参考图编辑更强,适合做最终输出。
4B 快、省显存,适合批量测试和快速预览,许可证也更友好。
别二选一,24G 卡的正确姿势是:
- 4B:快速预览、试 prompt、自动草图
- 9B:主力成图、多参考图编辑、最终画面
两者都留着,互补。
不同显卡怎么选
- RTX 4070 / 12GB → 认准 Klein-4B FP8,先跑稳别多想。
- RTX 4070 Ti SUPER / 16GB → 4B 主力,9B 可以浅试,但别当生产主力。
- RTX 3090 / 24GB → 9B FP8 主力,4B 预览,别浪费那 24G 显存。
- RX 7900 XTX / 24GB → 9B FP8/kv-fp8 主力,只要 ROCm 环境调通就没问题。
- RTX 4090 / 24GB → 9B FP8 主力,4B 备用。
- RTX 5090 / 32GB → 9B FP8 随便玩,更高分辨率随便试。
竞品需要比吗?

不打算长篇大论比来比去。很多测评把文字渲染放第一位,但对真实创作者,更重要的是:能稳跑、能快出、能接 ComfyUI、能参考图编辑、能批量测、能撑封面和分镜首帧。
需要画面里有精致中文标题的,后期软件比任何模型都靠谱。海报、封面主体用 Klein 生成,文字后期加,效率最高。SD3、Qwen-Image 当画面内文字的补充就好,别硬让生图模型扛所有。
踩坑记录
最大的坑不是下载,是工作流——Flux2-Klein 不能套用 FLUX.1 的 checkpoint 流程。
FLUX.1 dev 老路子:CheckpointLoaderSimple → CLIPTextEncode → KSampler …
Klein 需要拆分加载:UNETLoader、CLIPLoader、VAELoader,搭配 EmptyFlux2LatentImage、Flux2Scheduler、BasicGuider、SamplerCustomAdvanced 等。
我栽在两个地方:
- 用了
CLIPTextEncodeFlux直接报KeyError: 't5xxl'。Klein 文本编码器是 Qwen3,不是 T5XXL,这里必须用CLIPTextEncode。 Flux2Scheduler只需要 steps、width、height,别把 model 怼进去,否则会报unexpected keyword argument 'model'。让它只生成 sigmas 就行。
谁适合玩
有 3090/4090/7900XTX,想做本地内容生产,经常搞封面、首帧、角色图,想用 ComfyUI 串自动化流程,不想天天依赖在线生图的,Klein 很适合。偶尔玩一张图的话,在线平台够用了。
最终建议
我的日常配置思路:
- 主力:Flux2-Klein-9B FP8 / kv-fp8
- 快反:Flux2-Klein-4B
- 基线对比:FLUX.1 dev FP8
- 文字:后期处理
- 视频首帧、批量草图:Klein-9B 出成品,4B 冲量
硬件简明推荐:
| 硬件 | 推荐 |
|---|---|
| RTX 4070 / 12GB | Klein-4B |
| RTX 4070 Ti SUPER / 16GB | Klein-4B 主力,9B 实验 |
| RTX 3090 / 24GB | Klein-9B FP8 主力 |
| RX 7900 XTX / 24GB | Klein-9B FP8 / kv-fp8 主力 |
| RTX 4090 / 24GB | Klein-9B FP8 主力 |
| RTX 5090 / 32GB | Klein-9B FP8 主力 |
一句话:12G 玩 4B,24G 上 9B。4B 不单是低配替代,是快反神器;9B 不只能跑,是真能扛主力。
结语
测下来,Klein 不是跑分玩具,是能嵌进内容生产链路的模型。24G 卡上 9B 已稳,4B 也千万别扔——一个出活,一个探路,配合 ComfyUI 和后期工具,日常输出效率能提一大截。
这篇文章只讲到「能不能跑、怎么选、实际体感」,想看完整可落地的部署方案,包括:
-
- Flux2-Klein-4B / 9B 需要下载哪些模型文件;
- 在 ComfyUI 中如何放置这些文件;
- 为什么不能直接套用旧的 FLUX.1 工作流;
- 我在 RX 7900 XTX 搭配 ROCm 环境下的实测数据;
- RTX 3090 / 4090 用户应该如何看待这套方案;
- Flux2Scheduler、CLIPTextEncode、文本编码器等常见坑点;
- Apple Silicon Mac 是否也能运行;
- 出错后的排查顺序。
这些全部收录在我的博客《Flux2-Klein 本地部署全指南》里,需要的小伙伴可以去博客观看。
更多推荐


所有评论(0)