重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代

Stable Diffusion 3 Medium 是一款革命性的图像生成模型，通过其多模态扩散变换器技术，实现了卓越的图像质量和复杂提示理解。无论是用于艺术创作、教育工具还是生成模型研究，这款模型都将带来全新的体验。🎨快来加入社区，了解更多关于 Stable Diffusion 3 Medium 的最新动态和使用技巧吧！扫描下方二维码，关注我，获取更多精彩内容！📲🆕 扫描二维码加入，探索更

社区主理人微信号: Libin9iOak

2240人浏览 · 2024-06-14 10:34:11

社区主理人微信号: Libin9iOak · 2024-06-14 10:34:11 发布

重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代

关键词：Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率

原创作者：猫头虎

博主猫头虎的技术博客

全网搜索关键词：猫头虎
了解更多猫头虎的编程故事！
作者微信号： Libin9iOak
作者公众号： 猫头虎技术团队
更新日期： 2024年6月16日
🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能！

专栏链接：

🔗 精选专栏：

《面试题大全》 — 面试准备的宝典！
《IDEA开发秘籍》 — 提升你的IDEA技能！
《100天精通鸿蒙》 — 从Web/安卓到鸿蒙大师！
《100天精通Golang（基础入门篇）》 — 踏入Go语言世界的第一步！
《100天精通Go语言（精品VIP版）》 — 踏入Go语言世界的第二步！
《21天精通IPV4 To IPV6》 — 踏入新IP时代的大门！

领域矩阵：

🌐 猫头虎技术领域矩阵：
深入探索各技术领域，发现知识的交汇点。了解更多，请访问：

猫头虎技术矩阵
新矩阵备用链接

在这里插入图片描述

文章目录

重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代

开创图像生成新时代

大家好，我是猫头虎😺！今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量，还在排版和复杂提示理解方面表现出色，同时具备极高的资源效率。想了解更多关于这款模型的细节，请继续阅读下去！📖

在这里插入图片描述

Model

Stable Diffusion 3 Medium 是一款多模态扩散变换器（MMDiT）文本到图像模型，其性能在图像质量、排版、复杂提示理解和资源效率方面有了显著提升。更多技术细节请参阅研究论文。

请注意：此模型发布于 Stability 非商业研究社区许可下。若需创作者或企业许可，请访问 Stability.ai 或联系我们获取商业许可详情。

模型描述

开发者：Stability AI
模型类型：MMDiT 文本到图像生成模型
模型描述：该模型可以根据文本提示生成图像。它使用了三种固定的预训练文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl）。

主要版本

sd3_medium.safetensors：这是 Stability AI 最先进的开放式文本到图像模型，包含 20 亿参数。这个模型的大小适合在消费者级 PC 和笔记本电脑以及企业级 GPU 上运行。它被认为是下一代文本到图像模型的标准。
sd3_medium_incl_clips.safetensors：这个模型版本包含了 CLIP 模型的功能，CLIP 是一个多模态模型，能够理解图像和文本之间的关系，从而提高生成图像的相关性和准确性。这使得模型在处理复杂提示时能够更好地遵循指令，生成更符合用户要求的图像。
sd3_medium_incl_clips_t5xxlfp8.safetensors：这个版本在包含 CLIP 功能的基础上，进一步集成了 T5-XXL-FP8 模型，这是一个大型的自然语言处理模型，用于改进文本理解和生成能力。这意味着模型在理解复杂的文本提示和生成高质量图像方面会有更好的表现。

许可

非商业用途：Stable Diffusion 3 Medium 在 Stability AI 非商业研究社区许可下发布。该模型可用于学术研究等非商业目的。
商业用途：此模型不可用于商业用途，除非从 Stability 获取单独的商业许可。专业艺术家、设计师和创作者可使用创作者许可。请访问 https://stability.ai/license 了解更多信息。

模型资源

本地或自托管使用推荐使用 ComfyUI 进行推理。

Stable Diffusion 3 Medium 可在 Stability API 平台上获取。

在这里插入图片描述

ComfyUI: https://github.com/comfyanonymous/ComfyUI
StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
技术报告: https://stability.ai/news/stable-diffusion-3-research-paper

训练数据集

训练模型时使用了合成数据和经过筛选的公开数据。模型预训练了 10 亿张图像，微调数据包括 3000 万高质量美学图像，专注于特定的视觉内容和风格，以及 300 万首选数据图像。

文件结构

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── ...

三个模型版本

sd3_medium.safetensors：这是 Stability AI 最先进的开放式文本到图像模型，包含 20 亿参数。这个模型的大小适合在消费者级 PC 和笔记本电脑以及企业级 GPU 上运行。它被认为是下一代文本到图像模型的标准。
sd3_medium_incl_clips.safetensors：这个模型版本包含了 CLIP 模型的功能，CLIP 是一个多模态模型，能够理解图像和文本之间的关系，从而提高生成图像的相关性和准确性。这使得模型在处理复杂提示时能够更好地遵循指令，生成更符合用户要求的图像。
sd3_medium_incl_clips_t5xxlfp8.safetensors：这个版本在包含 CLIP 功能的基础上，进一步集成了 T5-XXL-FP8 模型，这是一个大型的自然语言处理模型，用于改进文本理解和生成能力。这意味着模型在理解复杂的文本提示和生成高质量图像方面会有更好的表现。

使用场景

预期用途

用于生成艺术作品，并在设计和其他艺术过程中使用。
用于教育或创意工具。
研究生成模型，包括理解生成模型的局限性。

所有模型的使用都应符合可接受使用政策。

不在预期范围内的用途

模型未经过训练以生成对人物或事件的真实表述。因此，使用模型生成此类内容超出了模型能力的范围。

安全性

作为设计安全性和负责任 AI 部署方法的一部分，模型开发的各个阶段都实施了安全措施，从预训练模型到模型的持续开发、微调和部署。实施的一系列安全缓解措施旨在减少严重危害的风险，但开发者仍需根据其具体使用情况进行测试并应用其他缓解措施。更多关于安全性的方法，请访问安全页面。

评估方法

评估方法包括结构化评估和针对特定、严重危害（如儿童性虐待和剥削、极端暴力和血腥、色情内容和非自愿裸体）的内部和外部红队测试。测试主要在英语环境中进行，可能无法涵盖所有可能的危害。如同任何模型一样，模型可能在某些时候会生成不准确、带有偏见或令人反感的响应。

识别的风险和缓解措施

有害内容：训练模型时使用了筛选后的数据集，并实施了旨在平衡实用性和防止危害的安全措施。然而，这并不能保证所有可能的有害内容都已被删除。模型可能会在某些时候生成有毒或带有偏见的内容。所有开发者和部署者应谨慎行事，并根据其具体的产品政策和应用场景实施内容安全防护措施。
滥用：技术限制和开发者与最终用户的教育可以帮助缓解模型的恶意应用。所有用户必须遵守可接受使用政策，包括在应用微调和提示工程机制时。请参考 Stability AI 可接受使用政策，了解产品违规使用的信息。
隐私侵犯：开发者和部署者应遵守隐私法规，采用尊重数据隐私的技术。