Flux2-Klein 本地部署实战：RTX 3090 / RX 7900 XTX 24GB 实测可用

Tiana33

195人浏览 · 2026-06-24 20:02:33

Tiana33 · 2026-06-24 20:02:33 发布

ChatGPT Image Jun 24, 2026, 06_35_46 PM.png

Flux2-Klein 本地部署实战

本地生图一直卡在同一个死循环：云端模型画得漂亮，但改 prompt 就花钱、批量出图还得排队，隐私更别提；本地 FLUX.1 dev FP8 能打，可 24GB 卡跑起来显存紧张、速度拖后腿，想快速迭代、接 ComfyUI 工作流基本是奢望。

Black Forest Labs 新出的轻量模型到底能不能打破这个僵局？我用 RX 7900 XTX 24GB 实测了一遍，不整虚的直接把大家最关心的几个问题一次性说透：

4B 和 9B 怎么选？
RTX 3090 / 7900 XTX 这类 24GB 卡到底稳不稳？
谁更适合当主力？
跟 FLUX.1 dev FP8 比，实际体感差多少？
部署踩了哪些坑？

结论先说：

12GB 显卡优先玩 4B。
24GB 显卡（3090/4090/7900XTX）可以直接把 9B FP8 / kv-fp8 当主力。
4B 别丢，留着做快速预览、批量测试和草图非常舒服。

为什么要测 Flux2-Klein

以前本地生图最大的毛病不是模型不行，是太重、太慢、太吃资源，嵌不进日常流程。FLUX.1 dev FP8 画质能看，但 24GB 卡上跑起来显存和速度都紧张。一天要做一堆封面、首帧、角色图、分镜的时候，它实在不够轻快。

我要的是一个能天天跑、反复改、批量出图、接进工作流的方案，不是偶尔出一张极限画质图。Klein 的价值就在这里：试 prompt 快、换 seed 快、出草图快、做候选快，配合 ComfyUI 自动化刚好。

所以这次不跑分，只看它能不能顶进真实生产。

Flux2-Klein 到底是啥

FLUX.2 [klein] 把文生图、图像编辑、单参考图/多参考图编辑、迭代修改这些能力揉进了一个轻量架构。对内容创作者来说，以前要拼好几个模型加一堆插件才能串起来的流程，现在一个模型就能扛大部分。

它不是文字渲染最强，也不是极限画质最顶，但速度、编辑和本地部署效率是真不错。

4B 和 9B 怎么选

版本	定位	适合谁
Klein-4B	轻量、高速、许可证友好	12G-16G 卡、商用开发、快速预览
Klein-9B FP8/kv-fp8	画质更好、编辑更稳、综合体验强	24G 卡当主力生图用

简单说：4B 是快反模型，9B 是主力成图模型。
12G 卡（比如 4070）别硬刚 9B，先让 4B 稳跑。24G 卡别只玩 4B，9B FP8 或 kv-fp8 值得直接进工作流。

我的测试环境

没用云，全在本地 ComfyUI 上跑。

GPU：AMD RX 7900 XTX 24GB
系统：Ubuntu，ROCm 7.2.4，PyTorch 2.11.0+rocm7.2
ComfyUI：0.23.0
启动参数：python main.py --listen 0.0.0.0 --port 8188 --disable-async-offload
内存：32GB
测试分辨率：1024x1024，batch size 1，euler 采样器 20 步

这套参数贴近日常用法，不是官方那种 4 步极限蒸馏跑分，所以速度看起来没那么夸张，但反映实际体感。

Klein-4B 实测

在 7900XTX 上 4B 比预期还稳。

分辨率 1024x1024，20 步 euler
峰值显存约 16.7–16.9 GB
换 seed 出图约 33–34 秒
缓存重复跑可到 16–17 秒

显存够用，速度够快，特别适合封面候选、prompt 调试。跟 FLUX.1 dev FP8 一比，效率提升立竿见影。

和 FLUX.1 dev FP8 对比

同环境，同提示词（红色机器人、雨夜街道、霓虹反射），1024x1024：

方案	速度	峰值显存	感受
FLUX.1 dev FP8 冷启动	约 95–98 秒	约 21 GB	能跑，但沉重
FLUX.1 dev FP8 热启动	约 67 秒	约 21 GB	能用，不算快
Klein-4B 冷启动	约 33 秒	16.7 GB	明显轻快
Klein-4B 热启动	约 33–34 秒	16.9 GB	很适合日常
Klein-4B 缓存重复跑	约 16–17 秒	16.9 GB	预览舒坦

dev FP8 是画质基线，但 Klein-4B 是能嵌进工作流里的日用模型。偶尔出一张图 dev FP8 还行，一旦每天批量做内容，4B 的速度和显存优势就太明显了。

Klein-9B kv-fp8 实测

模型组合：

flux-2-klein-9b-kv-fp8.safetensors
qwen_3_8b_fp8mixed.safetensors
flux2-vae.safetensors

1024x1024，20 步 euler，7900XTX 成功出图，不 OOM。

冷启动出图约 57–58 秒，峰值显存约 20.15 GB
热启动出图约 33–34 秒，峰值显存约 18.92 GB

24G 卡跑 9B kv-fp8 不是“理论可跑”，是真的能进工作流。当然得记住，batch size 保持 1，别同时挂几个大模型，别用错文本编码器，offload 策略合理，稳稳的。

4B 和 9B 谁更适合日常

9B 细节更密，复杂场景更稳，多参考图编辑更强，适合做最终输出。
4B 快、省显存，适合批量测试和快速预览，许可证也更友好。

别二选一，24G 卡的正确姿势是：

4B：快速预览、试 prompt、自动草图
9B：主力成图、多参考图编辑、最终画面

两者都留着，互补。

不同显卡怎么选

RTX 4070 / 12GB → 认准 Klein-4B FP8，先跑稳别多想。
RTX 4070 Ti SUPER / 16GB → 4B 主力，9B 可以浅试，但别当生产主力。
RTX 3090 / 24GB → 9B FP8 主力，4B 预览，别浪费那 24G 显存。
RX 7900 XTX / 24GB → 9B FP8/kv-fp8 主力，只要 ROCm 环境调通就没问题。
RTX 4090 / 24GB → 9B FP8 主力，4B 备用。
RTX 5090 / 32GB → 9B FP8 随便玩，更高分辨率随便试。

竞品需要比吗？

不打算长篇大论比来比去。很多测评把文字渲染放第一位，但对真实创作者，更重要的是：能稳跑、能快出、能接 ComfyUI、能参考图编辑、能批量测、能撑封面和分镜首帧。

需要画面里有精致中文标题的，后期软件比任何模型都靠谱。海报、封面主体用 Klein 生成，文字后期加，效率最高。SD3、Qwen-Image 当画面内文字的补充就好，别硬让生图模型扛所有。

踩坑记录

最大的坑不是下载，是工作流——Flux2-Klein 不能套用 FLUX.1 的 checkpoint 流程。

FLUX.1 dev 老路子：CheckpointLoaderSimple → CLIPTextEncode → KSampler …
Klein 需要拆分加载：UNETLoader、CLIPLoader、VAELoader，搭配 EmptyFlux2LatentImage、Flux2Scheduler、BasicGuider、SamplerCustomAdvanced 等。

我栽在两个地方：

用了 CLIPTextEncodeFlux 直接报 KeyError: 't5xxl'。Klein 文本编码器是 Qwen3，不是 T5XXL，这里必须用 CLIPTextEncode。
Flux2Scheduler 只需要 steps、width、height，别把 model 怼进去，否则会报 unexpected keyword argument 'model'。让它只生成 sigmas 就行。

谁适合玩

有 3090/4090/7900XTX，想做本地内容生产，经常搞封面、首帧、角色图，想用 ComfyUI 串自动化流程，不想天天依赖在线生图的，Klein 很适合。偶尔玩一张图的话，在线平台够用了。

最终建议

我的日常配置思路：

主力：Flux2-Klein-9B FP8 / kv-fp8
快反：Flux2-Klein-4B
基线对比：FLUX.1 dev FP8
文字：后期处理
视频首帧、批量草图：Klein-9B 出成品，4B 冲量

硬件简明推荐：

硬件	推荐
RTX 4070 / 12GB	Klein-4B
RTX 4070 Ti SUPER / 16GB	Klein-4B 主力，9B 实验
RTX 3090 / 24GB	Klein-9B FP8 主力
RX 7900 XTX / 24GB	Klein-9B FP8 / kv-fp8 主力
RTX 4090 / 24GB	Klein-9B FP8 主力
RTX 5090 / 32GB	Klein-9B FP8 主力

一句话：12G 玩 4B，24G 上 9B。4B 不单是低配替代，是快反神器；9B 不只能跑，是真能扛主力。

结语

测下来，Klein 不是跑分玩具，是能嵌进内容生产链路的模型。24G 卡上 9B 已稳，4B 也千万别扔——一个出活，一个探路，配合 ComfyUI 和后期工具，日常输出效率能提一大截。

这篇文章只讲到「能不能跑、怎么选、实际体感」，想看完整可落地的部署方案，包括：

1. Flux2-Klein-4B / 9B 需要下载哪些模型文件；

在 ComfyUI 中如何放置这些文件；
为什么不能直接套用旧的 FLUX.1 工作流；
我在 RX 7900 XTX 搭配 ROCm 环境下的实测数据；
RTX 3090 / 4090 用户应该如何看待这套方案；
Flux2Scheduler、CLIPTextEncode、文本编码器等常见坑点；
Apple Silicon Mac 是否也能运行；
出错后的排查顺序。

这些全部收录在我的博客《Flux2-Klein 本地部署全指南》里，需要的小伙伴可以去博客观看。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer

AMD开发者中国社区

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

不只是聊天，Ryzen AI 在数据分析中的本地化应用

本文深入探讨 Ryzen AI 在数据分析中的本地化应用。借助 Strix Halo 架构与 Radeon GPU，用户可利用 Ollama 等工具离线处理敏感财务 CSV 数据，生成 Python 代码或 Excel 公式。这种方案在保障数据隐私安全的同时，大幅提升分析效率，是财务与运营人员的理想选择。