免费替代Midjourney！FLUX.1使用方法大全，支持ComfyUI

FLUX.1是由Black Forest Labs推出的开源AI图像生成模型，由Stable Diffusion原班人马打造，该模型拥有12B参数，包含三种版本：FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]。还介绍了核心技术和4种使用教程。

Cstarboy

2401人浏览 · 2024-08-05 16:11:14

Cstarboy · 2024-08-05 16:11:14 发布

一：Flux.1概述

1.1 它是什么

如果你想直接查看使用教程，MeoAI建议你直接跳到第四章：4种使用方法教程。

Flux.1是由Black Forest Labs开发的一款开源AI图像生成模型。这个模型继承了Stable Diffusion的创新精神和技术优势，由Stable Diffusion原班人马和多位Stability AI前研究员打造，致力于研发优质多模态模型并开源。该模型拥有12B参数，是迄今为止最大的文生图模型之一。Flux.1的命名寓意着其在图像生成领域的流动性和创新性，旨在为用户带来源源不断的创意和灵感。

1.2 版本介绍

Flux.1包含三个不同的版本，以满足不同用户的需求：

FLUX.1 [pro]：面向专业用户，提供最高质量的图像生成服务。
FLUX.1 [dev]：面向开发者和非商业用途，是一个开源的、经过指导蒸馏的模型。
FLUX.1 [schnell]：为快速生成和本地开发设计，提供了最快的图像生成速度。

Name	HuggingFace repo	License	md5sum
FLUX.1 [schnell]	https://huggingface.co/black-forest-labs/FLUX.1-schnell	apache-2.0	a9e1e277b9b16add186f38e3f5a34044
FLUX.1 [dev]	https://huggingface.co/black-forest-labs/FLUX.1-dev	FLUX.1-dev Non-Commercial License	a6bd8c16dfc23db6aee2f63a2eba78c0
FLUX.1 [pro]	Only available in our API.

1.3 社区与支持

Flux.1的开发团队非常重视与技术社区的互动和合作。通过GitHub等平台，Flux.1的源代码和模型权重对所有感兴趣的研究者和开发者开放，鼓励社区成员参与到模型的改进和创新中来。

项目官网：Black Forest Labs - Frontier AI Lab
在线试用地址：
GitHub仓库：GitHub - black-forest-labs/flux: Official inference repo for FLUX.1 models
HuggingFace模型库：https://huggingface.co/black-forest-labs/FLUX.1-schnell

二：核心技术

2.1 多模态架构

多模态架构是Flux.1的核心技术之一，它允许模型同时处理多种类型的输入数据，如文本描述、图像草图等，从而生成与输入信息高度一致的图像。这种架构的核心在于如何有效地融合不同模态的信息，以提高生成图像的准确性和多样性。

2.2 并行扩散Transformer模块

Flux.1采用了基于Transformer的并行扩散机制，这是一种先进的神经网络组件，能够高效地处理序列数据。并行扩散Transformer模块通过并行处理技术，提高了模型对信息的编码和解码能力，从而加快了图像生成的速度，并提高了生成图像的质量。

2.3 流匹配训练方法

流匹配训练方法是Flux.1的另一项创新，它通过优化模型的训练过程，提高了生成图像的质量和一致性。与传统的训练方法相比，流匹配训练方法能够更有效地利用数据，减少训练时间，并提高模型的泛化能力。

2.4 旋转位置嵌入

Flux.1引入了旋转位置嵌入技术，这是一种特殊的编码方式，可以增强模型对图像中不同位置特征的识别能力。这种技术使得模型能够更好地理解和生成具有复杂空间关系的图像，如人体姿态或物体间的相对位置。

2.5 并行注意力层

并行注意力层是Flux.1中的另一个关键技术，它允许模型同时关注输入序列中的多个部分。这种机制有助于捕捉长距离依赖关系，提高生成图像的准确性和细节表现。

2.6 图像质量和输出多样性

Flux.1在图像质量和输出多样性方面表现出色。它能够生成高分辨率、高清晰度的图像，并支持多种宽高比和分辨率选项。此外，Flux.1还能够根据用户的文本提示生成多样化的图像，满足不同用户的需求。

2.7 性能与效率

Flux.1在保持高性能的同时，也注重模型的运行效率。通过优化模型结构和训练方法，Flux.1能够在不同的硬件平台上高效运行，即使是在资源受限的环境中也能生成高质量的图像。

三：Flux.1与同类型对比分析与使用体验

3.1 Flux.1的技术优势

文字生成：Flux.1在处理包含重复或相似字母的文本时表现出色，能够生成清晰、准确的文字内容，这在图像和视频生成中尤为关键。
复杂指令遵循：Flux.1能够理解和执行复杂的构图指令，生成与描述高度一致的图像。
人手描绘：在多模态生成模型中，人手的准确生成一直是个挑战，Flux.1在这方面取得了显著进步。

3.2 实际使用案例分析

FLUX.1 [pro] 生成示例：即使是生成包含大段文字和多个人物的图像，FLUX.1 [pro] 也能保持字符和人手细节的准确性，避免了常见错误。
生成速度对比：使用相同的提示词在三款模型上进行测试，FLUX.1 [pro]、[dev] 和 [schnell] 的用时分别为17.5秒、12.2秒和1.5秒，显示出不同模型的性能差异。

3.3 性能与价格对比

性能优越性：Flux.1在视觉质量、图像细节和输出多样性等方面展现出卓越的性能。
价格模型：Flux.1的API服务按图像张数定价，价格分别为每张图片0.055美元、0.03美元和0.003美元，为用户提供了不同价位的选择。

3.4 与其他模型的对比

竞争力分析：在与Midjourney v6.0、DALL・E 3等热门模型的对比中，Flux.1 [pro] 和 [dev] 在多项测评标准中均表现出超越的性能。
轻量级模型的竞争力：FLUX.1 [schnell] 作为轻量级模型，在速度和成本效益上具有明显优势，也超越了Midjourney v6.0、DALL・E 3 等更大的模型。

3.5 用户体验

使用便捷性：Flux.1在Replicate平台上的使用体验简洁直观，用户可以通过简单的界面快速生成图像。
定制化和灵活性：Flux.1提供了丰富的定制选项，允许用户根据需求调整图像生成的各个方面。

四：4种使用方法教程

4.1 直接访问Replicate平台

用户可以直接访问Replicate平台上的FLUX.1 Pro、FLUX.1 Dev和FLUX.1 Schnell。

FLUX.1 Pro提供最先进的图像生成服务，具有顶级的即时跟踪、视觉质量、图像细节和输出多样性。
FLUX.1 Dev面向非商业应用，是一个更高效的版本，适合个人和开发者使用。
FLUX.1 Schnell是最快的模型，专为本地开发和个人使用而设计

输入参数介绍（ 以flux-dev为例，Pro版本收费）：

prompt：用户需要提供文本提示（Text prompt），这是生成图像的基础。
Aspect ratio：可以设置图像的宽高比（Aspect ratio），默认为“1:1”。
guidance：控制文本提示与图像质量/多样性之间的平衡。较高的值会使得输出更贴近提示，但可能会降低整体图像质量。较低的值允许更多的创造性自由，但可能会产生与提示不太相关的结果。默认值：3.5
output_format（输出格式）：包含webp，jpg，png三种格式。
output_quality（输出质量）：（最小值：0，最大值：100）保存输出图像时的质量，范围从0到100。100是最佳质量，0是最低质量。对于.png格式的输出不适用。默认值：80

4.2 在线API服务

FLUX.1提供了API服务，用户可以通过API按图像张数付费使用。三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元（约合人民币0.4元、0.22元、0.022元）。API文档地址：

API文档地址：http://docs.bfl.ml/

4.3 在消费级显卡运行

要使用FLUX.1模型和🧨 diffusers Python库，首先需要安装或升级diffusers库：

pip install git+https://github.com/huggingface/diffusers.git

然后，您可以使用FluxPipeline来运行模型。

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", 
                                    torch_dtype=torch.bfloat16,
                                    revision="refs/pr/1",
                                   )
# 减少显存使用的方法如下
# pipe.vae.enable_tiling()
# pipe.vae.enable_slicing()
pipe.enable_sequential_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
# pipe.enable_xformers_memory_efficient_attention()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")