一:Flux.1概述

1.1 它是什么

如果你想直接查看使用教程,MeoAI建议你直接跳到第四章:4种使用方法教程。

Flux.1是由Black Forest Labs开发的一款开源AI图像生成模型。这个模型继承了Stable Diffusion的创新精神和技术优势,由Stable Diffusion原班人马和多位Stability AI前研究员打造,致力于研发优质多模态模型并开源。该模型拥有12B参数,是迄今为止最大的文生图模型之一。Flux.1的命名寓意着其在图像生成领域的流动性和创新性,旨在为用户带来源源不断的创意和灵感。

1.2 版本介绍

Flux.1包含三个不同的版本,以满足不同用户的需求:

  • FLUX.1 [pro]:面向专业用户,提供最高质量的图像生成服务。
  • FLUX.1 [dev]:面向开发者和非商业用途,是一个开源的、经过指导蒸馏的模型。
  • FLUX.1 [schnell]:为快速生成和本地开发设计,提供了最快的图像生成速度。
NameHuggingFace repoLicensemd5sum
FLUX.1 [schnell]https://huggingface.co/black-forest-labs/FLUX.1-schnellapache-2.0a9e1e277b9b16add186f38e3f5a34044
FLUX.1 [dev]https://huggingface.co/black-forest-labs/FLUX.1-devFLUX.1-dev Non-Commercial Licensea6bd8c16dfc23db6aee2f63a2eba78c0
FLUX.1 [pro]Only available in our API.
1.3 社区与支持

Flux.1的开发团队非常重视与技术社区的互动和合作。通过GitHub等平台,Flux.1的源代码和模型权重对所有感兴趣的研究者和开发者开放,鼓励社区成员参与到模型的改进和创新中来。

二:核心技术

2.1 多模态架构

多模态架构是Flux.1的核心技术之一,它允许模型同时处理多种类型的输入数据,如文本描述、图像草图等,从而生成与输入信息高度一致的图像。这种架构的核心在于如何有效地融合不同模态的信息,以提高生成图像的准确性和多样性。

2.2 并行扩散Transformer模块

Flux.1采用了基于Transformer的并行扩散机制,这是一种先进的神经网络组件,能够高效地处理序列数据。并行扩散Transformer模块通过并行处理技术,提高了模型对信息的编码和解码能力,从而加快了图像生成的速度,并提高了生成图像的质量。

2.3 流匹配训练方法

流匹配训练方法是Flux.1的另一项创新,它通过优化模型的训练过程,提高了生成图像的质量和一致性。与传统的训练方法相比,流匹配训练方法能够更有效地利用数据,减少训练时间,并提高模型的泛化能力。

2.4 旋转位置嵌入

Flux.1引入了旋转位置嵌入技术,这是一种特殊的编码方式,可以增强模型对图像中不同位置特征的识别能力。这种技术使得模型能够更好地理解和生成具有复杂空间关系的图像,如人体姿态或物体间的相对位置。

2.5 并行注意力层

并行注意力层是Flux.1中的另一个关键技术,它允许模型同时关注输入序列中的多个部分。这种机制有助于捕捉长距离依赖关系,提高生成图像的准确性和细节表现。

2.6 图像质量和输出多样性

Flux.1在图像质量和输出多样性方面表现出色。它能够生成高分辨率、高清晰度的图像,并支持多种宽高比和分辨率选项。此外,Flux.1还能够根据用户的文本提示生成多样化的图像,满足不同用户的需求。

2.7 性能与效率

Flux.1在保持高性能的同时,也注重模型的运行效率。通过优化模型结构和训练方法,Flux.1能够在不同的硬件平台上高效运行,即使是在资源受限的环境中也能生成高质量的图像。

三:Flux.1与同类型对比分析与使用体验

3.1 Flux.1的技术优势
  • 文字生成:Flux.1在处理包含重复或相似字母的文本时表现出色,能够生成清晰、准确的文字内容,这在图像和视频生成中尤为关键。
  • 复杂指令遵循:Flux.1能够理解和执行复杂的构图指令,生成与描述高度一致的图像。
  • 人手描绘:在多模态生成模型中,人手的准确生成一直是个挑战,Flux.1在这方面取得了显著进步。

3.2 实际使用案例分析
  • FLUX.1 [pro] 生成示例:即使是生成包含大段文字和多个人物的图像,FLUX.1 [pro] 也能保持字符和人手细节的准确性,避免了常见错误。
  • 生成速度对比:使用相同的提示词在三款模型上进行测试,FLUX.1 [pro]、[dev] 和 [schnell] 的用时分别为17.5秒、12.2秒和1.5秒,显示出不同模型的性能差异。
3.3 性能与价格对比
  • 性能优越性:Flux.1在视觉质量、图像细节和输出多样性等方面展现出卓越的性能。
  • 价格模型:Flux.1的API服务按图像张数定价,价格分别为每张图片0.055美元、0.03美元和0.003美元,为用户提供了不同价位的选择。
3.4 与其他模型的对比
  • 竞争力分析:在与Midjourney v6.0、DALL・E 3等热门模型的对比中,Flux.1 [pro] 和 [dev] 在多项测评标准中均表现出超越的性能。
  • 轻量级模型的竞争力:FLUX.1 [schnell] 作为轻量级模型,在速度和成本效益上具有明显优势,也超越了Midjourney v6.0、DALL・E 3 等更大的模型。
3.5 用户体验
  • 使用便捷性:Flux.1在Replicate平台上的使用体验简洁直观,用户可以通过简单的界面快速生成图像。
  • 定制化和灵活性:Flux.1提供了丰富的定制选项,允许用户根据需求调整图像生成的各个方面。

四:4种使用方法教程

4.1 直接访问Replicate平台

用户可以直接访问Replicate平台上的FLUX.1 ProFLUX.1 DevFLUX.1 Schnell

  • FLUX.1 Pro提供最先进的图像生成服务,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性。
  • FLUX.1 Dev面向非商业应用,是一个更高效的版本,适合个人和开发者使用。
  • FLUX.1 Schnell是最快的模型,专为本地开发和个人使用而设计

输入参数介绍( 以flux-dev为例,Pro版本收费

  • prompt:用户需要提供文本提示(Text prompt),这是生成图像的基础。
  • Aspect ratio:可以设置图像的宽高比(Aspect ratio),默认为“1:1”。
  • guidance:控制文本提示与图像质量/多样性之间的平衡。较高的值会使得输出更贴近提示,但可能会降低整体图像质量。较低的值允许更多的创造性自由,但可能会产生与提示不太相关的结果。默认值:3.5
  • output_format(输出格式):包含webp,jpg,png三种格式。
  • output_quality(输出质量):(最小值:0,最大值:100)保存输出图像时的质量,范围从0到100。100是最佳质量,0是最低质量。对于.png格式的输出不适用。默认值:80

4.2 在线API服务

FLUX.1提供了API服务,用户可以通过API按图像张数付费使用。三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。API文档地址:

API文档地址:http://docs.bfl.ml/

4.3 在消费级显卡运行

要使用FLUX.1模型和🧨 diffusers Python库,首先需要安装或升级diffusers库:

pip install git+https://github.com/huggingface/diffusers.git

然后,您可以使用FluxPipeline来运行模型。

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", 
                                    torch_dtype=torch.bfloat16,
                                    revision="refs/pr/1",
                                   )
# 减少显存使用的方法如下
# pipe.vae.enable_tiling()
# pipe.vae.enable_slicing()
pipe.enable_sequential_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
# pipe.enable_xformers_memory_efficient_attention()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")
4.4 ComfyUI

ComfyUI 也火速支持 FLUX.1 系列模型,详细使用请阅读原文,如下:

FLUX.1使用方法大全icon-default.png?t=N7T8https://www.meoai.net/flux-1.html

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐