深度测评：SD3模型表现如何？实用教程助你玩转Stable Diffusion 3 ，最强SD3模型使用攻略，附ComfyUI实操SD3模型到底如何？StableDiffusion3全面评测！

SD第三代模型SD3基于SDXL进行训练，增强了TVE解码部分，改善了对提示的理解和元素融合能力。SD3采用了三种Clip编码，增加了文本编码器，训练数据量更大。介绍了Config UI的批处理操作，包括不同工作流的使用和动态提示词插件的安装。讨论了模型的获取和配置，以及如何通过LibLib网站下载和使用资源。进行了不同模型的生成效果比较，探讨了提示词的调整和优化，以及在线生成与本地生成的差异。

社区主理人微信号: Libin9iOak

2402人浏览 · 2024-06-28 14:30:49

社区主理人微信号: Libin9iOak · 2024-06-28 14:30:49 发布

深度测评：SD3模型表现如何？实用教程助你玩转Stable Diffusion 3 ，最强SD3模型使用攻略，附ComfyUI实操

在这里插入图片描述

SD3模型到底如何？StableDiffusion3全面评测！如何使用ComfyUI遍历题词｜模型？

大家好，我是猫头虎。今天我要给大家带来一篇关于Stable Diffusion 3 (SD3) 模型的全面评测和使用指南。作为刚刚开源的最新一代模型，SD3在架构、性能和功能上都有了显著的提升。本期内容不仅会详细解析SD3的各项改进，还会教大家如何通过ComfyUI进行高效的批处理操作和提示词测试。无论你是AI绘画的新手还是老手，相信这篇文章都能给你带来实用的指导和灵感。话不多说，我们马上开始吧！

本文大纲

SD第三代模型介绍
- SD3与之前架构的不同
  - 基于SDXL的训练
  - TVE解码部分的增强
  - 提示理解的完善
- 三种Clip编码的采用
- 模型后缀的含义和特性
Config UI的批处理操作
- 工作流的介绍
  - 基础工作流
  - 提词强化工作流
  - 传统放大工作流
- 动态提示词插件的使用
- 批量生成图像的方法
模型和资源的获取
- 访问LibLib网站获取模型和资源
- 下载和使用题词卡片
- 服务器配置和文件管理
模型比较和测试
- 不同模型的生成效果比较
- 提示词的调整和优化
- 在线生成与本地生成的对比

关键词

SD第三代模型
Config UI
批处理操作
Clip编码
动态提示词插件
模型比较
在线生成

适合阅读人群

对AI模型和图像生成技术感兴趣的技术人员
需要使用或了解SD第三代模型的研究人员
对Config UI和批处理操作有需求的设计师和开发者
希望了解最新AI技术和资源获取方法的用户

术语解释

SD3: SD第三代模型，基于SDXL进行训练，增强了TVE解码部分，改善了对提示的理解和元素融合能力。
Config UI: 配置用户界面，用于管理和操作批处理工作流。
Clip编码: 一种编码技术，SD3采用了三种Clip编码，增加了文本编码器，训练数据量更大。
动态提示词插件: 一种插件，可以在Manager中搜索“Dynamic”，安装后可以在新建节点处显示动态提示词，使用通配符文件进行随机调用。
LibLib: 一个资源网站，提供模型和资源下载，支持在线生成。

本期我们将探讨刚刚开源的SD第三代模型。此外，我们还会介绍一些config UI的批处理操作，以配合我们的提示词测试该模型。话不多说，我们直接进入SD官网。

SD3架构基于SDXL训练，增强了TVE解码部分，通道数增至16。
SD3改善了提示理解和元素融合，能更精确控制画面。
新一代模型采用三种Clip编码，增加了一个文本编码器，训练数据量达到2B参数。
TUGIFACE官网提供不同后缀的模型，无后缀模型不含Clip编码，带Clip标识的包含基础Clip编码，T5XXL新增第三种Clip编码。
模型精度有FP16和8位，大参数模型提供FP16，体积达15G，官方模型至少需12G显存。
Text Encoders部分需额外加载Clip模型，国内用户需下载并加载这些模型。

首先，我们要介绍的是SD3，它与之前的架构有何不同？SD3的架构基于SDXL进行训练。首先，我们可以看到TVE解码部分得到了大幅增强，现在通道数为16。其次，它对提示的理解及元素融合更为完善。简而言之，我们可以通过提示更精确地控制画面的某些部分。这一新一代模型采用了三种Clip编码。在SDXL中，我们有两个编码器，一个是L，一个是G。而这一代模型在此基础上增加了一个文本编码器，使得训练数据量更大，达到2B，相当于20E的参数，远超之前的SDXL。

现在，我们访问TUGIFACE官网，对于新手来说，可能不清楚应使用哪些模型。通过观察后缀，我们可以分辨出模型的特性。首先，无后缀的模型不包含Clip编码。其次，带有Clip标识的版本包含基础的Clip编码，即I和L，相当于XL模型。再往下，第三代模型T5XXL新增了第三种Clip编码模型。这里有两种精度：FP16和8位。通常，未经采样的模型精度为32位，采样后为FP16。对于大参数模型，仅提供FP16半精度，大小达到15G。此外，还提供8位精度，即半精度的半，更小。官方发布的模型体积较大，要求较高，至少需要12G显存，尽管官方称8G也可运行，但需配置虚拟内存。

在这四个模型中，Text Encoders部分会提供额外的Clip模型。如果加载的模型不包含Clip，则需下载并加载额外的Clip模型。下面两个模型同样如此，只需选择一个精度，如16位或8位，加上G和L，即构成三个Clip模型。对于国内用户，需下载并加载这些模型。

最佳访问的资源网站是LibLib。在之前讲解Stable Diffusion时，我曾提及此网站。目前，LibLibAI是国内较为完善的绘画模型资源网站，不仅提供常用模型，还可在其平台上查看相关内容。

平时都有一些激励活动，所以说有很多原创作者在这个地方玩游戏。

这些模型在CVT网站上不一定能找到，同时一些热门的模型也不一定能找到。

最重要的是，对于不熟悉网络配置的朋友们来说，这个功能非常便捷，可以直接访问，使用起来十分方便。

SD3模型是目前排名第一的模型，已在其网站上架。
SD3模型包含三个编码器，无需单独加载Clip编码模型。
王智能的信息将在视频简介下方提供。
LibreView网站支持V3模型生成，其在线生成速度与4090相当。
Huggenface提供的Config UI样本工作流包括Basic基础工作流、Prompt强化工作流和传统放大工作流（Upscale）。

速度非常顺畅。目前排名第一的是SD3模型，该模型已在其网站上架。这是一个实际版本，包含三个编码器，无需单独加载Clip编码模型。王智能的信息将放在视频简介下方。LibreView网站支持V3模型生成，其在线生成速度与4090相当，推测使用了大算力提供前端实时生成模式。Huggenface提供了一个Config UI样本工作流，包括Basic基础工作流、Prompt强化工作流和传统放大工作流（Upscale）。这些工作流相对简单。

现在直接来到服务器。在服务器这边，我们来直接打开这个工作流。我已经等待半天了。

工作流中涉及三个Clip模型（Clip-L、Clip-G和T5的Clip）的单独加载，用于正向和负向文本编码器。
负面处理机制包括两条处理路径，一条无提词（条件归零），另一条有提词和强度设置，通过Combine合并，实现线性过渡效果，其中90%的时间无提词作用。
SD3模型采样算法和模型管道处理算法，包括离散、连续和Cascade算法，以及CFG缩放等微调，用于优化模型性能。
使用官方提示词和模型参数（如采样器28部，CFG4.5）生成图像，模型已包含三个Clip模型，无需单独加载。

首先，我们来看一下这个最基础的工作流。在这里，我们简单分析一下。首先，我们可以看到官方提供的这边有一个单独加载的Clip，可以看到三个Clip加载器，模型中没有Clip。这种情况适用于我们所下载的是一个4G的，它没有打包任何的Clip模型。这时，我们需要下载三个Clip模型，如Clip-L、Clip-G和T5的Clip。将这三个模型加载下来，单独将Clip传给正向和负向两个文本编码器。这里只是单独加载模型，这是其一。其二，最有趣的是它的负面处理。我们可以看到负面这里有一堆东西。首先，它在负面这里分了两条线，最后用了一个Combine合并。上面这条是条件归零，即整个负面走了这条，它是没有任何提词的，相当于空的，因为它归零了。之后是一个时间设置。我们对比这两个时间设置，上面这条路线没有强度，相当于空提词，而下面这条路线有强度，有提词。之后在这两个强度上做了一个融合，其实是一个线性过渡，但由于Config UI没有Clip的线性过渡，我们可以看到没有强度的，相当于空提词。没有强度的开始时间从0.1到1结束，即90%的时间没有提词作用。只有前面的10%有提词效果，所以我们可以理解它将负面完全降低了。前面的10%有提词，后面就没有提词了，相当于做了一个缓出的效果。这个权重是一个缓出，特别厉害，即前面10%有作用，后面不想让提词发挥作用。因此，我们可以理解它的负面强度很高，它是要把强度降下来。我猜测因为三个Clip模型的加持，它对提词的理解过于强悍，所以这些操作不想让负面体现得太突出。因此，把负面强度降得很弱，只要有一点点就可以。这是第二点，它的负面处理。第三点，我们还可以看到SD3的模型采样算法。模型管道处理算法，不管我们在之前接触LCM也好，或者是Pelegram也好，都可以在模型管道做一些算法的优化，并不是特别主要。现在我们来看一下在高级里面找到模型。这里我们可以看到之前所有的离散算法、连续算法以及Cascade算法。这个连续就是我们之前Pelegram用的。下面SD3以及CFG缩放。这些都是一些微调，它不是说特别关键的一个组件，没有它就不能运行了。说到这里以后，我们就来用它官方的提示词来生成一下图像。当然要注意我们现在所加载的模型是实际的，里面包括了这3Clip模型。所以说我们Clip模型就不需要单独加载了，就可以直接从模型这里面来出了。给到正向，给到负向。我们来看一下这是它官方给到的采样器的参数，28部。所以说它的部数要求也不是特别高。然后CFG4.5明显可以感觉到它的风格性也特别强，我们CFG不能给特别高。同时也能感觉到它的编码强度也特别高，也就是因为它编码模型。那么再往下，采样器我们常用的2M。要注意的是这个调度器，它用的是SGM的，就和LCM的调度器类似。所以说它融合了一些这种精炼的东西，我感觉。这样的话我们先来直接来生成一下。

这一套题词的效果还是可以的，但是我感觉稍微有些油腻，这个脸上

CFG值被略微降低。
尝试使用默认的OlerA进行测试，但效果不佳。
调度器的选择对结果有重要影响，当前使用的调度器效果最佳。
模型算法更改为默认模型，变化不大。
步数降低至25步，DDIM表现正常，而OlerA效果不佳。
为了提高速度，进一步降低步数测试，结果显示变化不大。
尝试不使用原先的负面条件进行测试。

反光特别高。接下来我们将进行一些调整。首先，我们将CFG值略微降低。之前尝试过DDIM，但发现常用的3M和DDPM效果不佳，均出现崩溃情况。这里我们尝试使用默认的OlerA进行测试。其次，调度器的选择也非常关键。之前尝试过其他调度器，但效果均不如当前使用的这个。接下来，我们将更改模型算法，使用默认模型，虽然变化不大。随后，我们将步数降低至25步，再次进行生成。结果显示，OlerA效果不佳，而DDIM则表现正常。DDIM是一种采样速度较快的算法。为了提高速度，我们可以进一步降低步数进行测试，结果显示变化不大。接下来，我们将尝试不使用原先的负面条件，直接进行测试。

当前效果不理想，细节展现不足，需注意负面模式。
探讨第二个工作流程——提词强化流程。
除文本编码外，其他组件相同，引入SD3文本编码。
SD3文本编码包含Clip-L、Clip-G和T5三个独立Clip模型，各负责不同信息。
官方演示显示，新提词与之前相同，但效果有显著差异。

我们可以观察到，当前效果并不理想，细节未能充分展现，这是我们需要注意的第一点。我们必须按照其负面模式进行生成。接下来，我们将探讨第二个工作流程，即提词强化流程。通过比较可以发现，除文本编码外，其他组件均相同。这里特别引入了SD3文本编码，分别对应Clip-L、Clip-G和T5三个独立的Clip模型，它们各自负责不同的Clip信息。从官方演示中可以清晰理解，这一套提词与之前的提词相同，但效果存在显著差异，这是采用SD3方式生成的图像。现在，我们来进行对比分析，首先查看上文内容。

Clip I和L主要提供背景色彩、整体氛围和背景形状或风格。
T5 Clip描述了主体，即女性的肖像，包括她的神情、人物特点和艺术品的整体风格。
提到了基础案例的提示词。

大家可以看到，上面的Clip I和L提供的是氛围，包括背景色彩、整体氛围以及背景形状或风格。而最下面的T5 Clip则描述了主体，即女性的肖像，包括她的神情、人物特点以及艺术品的整体风格。此外，我们还了解到基础案例的提示词。

但是没有什么变化的吧。那么所产出的生成的这个效果呢?

这就是三种完全不同的CLIP模型的应用。

探讨了第三个工作流程，该流程主要涉及US放大和SD处理。
官方提供了三种不同的工作流。
由于SD开源时间短，节点进度未同步，无法使用独特方式遍历提示词。
目前只能使用单提示文本编码器进行图像测试。
讨论了遍历图像时的差异。

提示后，效果显著增强。接下来，我们探讨第三个工作流程，该流程并无特别之处。加载方式依旧简单，主要涉及后期放大。我们可以看到，流程中仅包含US放大，这便是其放大工作流。我认为此流程无需额外说明，仅涉及SD处理。至此，官方提供了三种不同工作流。随后，我们将进行简单测试。由于SD开源仅一天，部分节点进度尚未同步。我们无法使用独特方式遍历提示词，因此无法体现其特性。我们仅能使用单提示文本编码器进行图像测试。接下来，我们将简述如何遍历图像。首先，提及遍历，此处我们讨论的是差异。

插件名为“Dynamic”，可在Manager中搜索安装。
该插件为题词插件，安装后新建节点显示动态提示词。
动态提示词节点是Program通配符的使用节点。
不使用此插件，可选择Inspire中的通配符。
文中提到将选择随机题词，以随机调用通配符文件。

插件即为这样一个插件，我们可在Manager中直接搜索“Dynamic”，它是一款便捷的题词插件。安装此插件后，新建节点处将显示动态提示词，该提示词节点实质上是Program通配符的使用节点。若不使用此插件，亦可选择Inspire中的通配符。接下来，我们将选择一个随机题词，以便随机调用通配符文件。

那么说到文档调用，我们还是要访问LibLib的网站，除了模型，我们还可以下载一些其他资源。

点击右侧，查看全部类型，您会注意到这里有一个Word Cards，即题词卡片。

提斯卡吧是一个包含多种类型的平台，其中包括服装、人物、风格、场景以及视角等各类元素。

这里我下载了一些题词卡，解压后均为TXT文档。打开后，内容包括镜头、服装、各种职业服装、动物、人文景观及风格。我已上传部分至服务器，但未全部上传。

文件位置固定：服务器和本地在configurator目录下的文件位置是固定的。
自定义节点插件：在configurator下的custom_nodes文件夹中，存放了自定义节点插件。
安装的插件：dynamic_prompt是之前安装的插件，位于custom_nodes文件夹内。
wildcards文件夹：在dynamic_prompt文件夹内，用于存放下载的txt文档。
文档内容：放入wildcards文件夹的txt文档包括动物、配置文件、角色服装、风格和场景，其中配置文件需要复杂指令。

之后，我们进入服务器的硬盘，在configurator目录下，无论是服务器还是本地，文件位置都是固定的。在configurator下，我们找到custom_nodes，即自定义节点插件文件夹，在其中找到之前安装的dynamic_prompt。在此文件夹内，我们可以看到wildcards文件夹，将我们刚才下载的txt文档放入其中。放入后，首先要注意它们的名称：第一个是动物（animals），第二个是配置文件，包含多种不同结构，需要复杂的指令，这是我测试时使用的；如果大家对此感兴趣，我们稍后再详细讨论。第二个是角色的服装，第三个是风格，第四个是场景，关于如何调用这些内容，我们将在后续进行说明。

接下来，我们将调用Config UI。首先，我们将测试一种风格，在此基础上，我们可以提供不同的动物或场景。随后，我们将涉及两个文档：第一个文档包含各种动物。

文件重命名并复制名称。
调用时切换至英文输入法。
使用Shift键和反斜杠键输入两个下划线。
粘贴文件名后再次输入两个下划线。
系统随机调用文档中的提示词。
需指定一种风格。

我们可以直接重命名该文件，复制其名称。在调用时，需切换至英文输入法，使用Shift键和反斜杠键，输入两个下划线，然后粘贴文件名，再次输入两个下划线。这样操作后，系统将随机调用文档中的任意一行提示词。接下来，我们还需指定一种风格。

复制风格卡的文件名。
使用特定的调用方式（两个下划线）嵌入文件名，结合动物与风格。
预览提示词，关闭采样器后运行程序。
屏幕显示动物描述及风格描述，风格描述紧跟在ART后。
提升文本变化器的输入，直接应用于文本变化器。
对负面提示进行简单修改。

同样，我们复制风格卡的文件名。返回后，使用相同的调用方式，即两个下划线，将文件名嵌入其中，再接两个下划线。这样，我们便结合了动物与风格。接着，预览提示词，关闭采样器后直接运行。此时，屏幕上显示出动物的描述及风格描述。ART后紧跟风格描述。随后，提升文本变化器的输入，直接应用于文本变化器。至于负面提示，稍作修改即可。

描述了使用某种风格生成图像的过程。
第一次生成的图像是犀牛，但看起来异常。
第二次生成的图像变为豹子，安全系数被调低至3。
光线对豹子来说仍然过强。
尝试生成小猫的图像，经过多次尝试后，艺术表现有所差异。

我们只需保留一些通用元素即可。这是我们采用该风格生成的图像。显然，这只犀牛看起来有些异常。我们重新生成一次，第二次生成的图像不再是犀牛，而是随机选择了其他动物，例如豹子。安全系数稍高，我们将其调低至3。光线对于豹子来说仍显过强。接下来是小猫的图像。经过几次尝试后，我们可以感受到在艺术表现上的差异。

尝试一次性生成多张图像，但系统重复生成相同图像。
需要实现批处理，生成多样化图像，类似于动画制作中的FIZZ节点。
使用Stream的合并功能和帧节点，设置不同组件生成不同内容。
通过设置帧和提示词，实现自动生成不同图像。
使用FIZZ批次调度，设置最大帧数，批量预览和生成图像。
尝试生成人物图像，通过修改提示词实现不同风格。

并不是特别好，只是中规中矩。接下来我们将进行一些变例测试，即一次性生成多张图像，例如4张、10张或5张。我们尝试将队列大小设置为2，生成两张不同的图像。但结果显示，由于我们只传递了一次提示词，系统重复生成了相同的图像。为了实现批处理，我们需要让系统生成多样化的图像。这涉及到使用批次处理，类似于动画制作中使用的FIZZ节点。按照之前的动画流程，我们可能需要手动输入提示词，但这并不方便。我们能否直接将提示词传递给系统，实现自动填写呢？这需要更精细的设置。

首先，我们需要使用Stream的合并功能。在帧节点中，我们可以看到字符串连锁，通过调整可以实现连锁效果，接收的即为提示词。我们可以设置对应的帧，将不同的组件生成不同的内容，传递给不同的帧。例如，我们将第一个组件设置为A，第二个设置为B，并复制这些自动生成提示词的节点。假设我们复制四张，以实现四张不同的图像。在输出字符串时，我们预览输出，可以看到文本前带有关键帧信息，如第0帧、第12帧和第24帧。这样，每个提示词前都生成了帧的格式。

接下来，我们将每一帧设置为单独的提示词，如0123456。我们只需生成四个提示词。然后，我们使用FIZZ批次调度，找到提示词调度器。这样，我们可以将字符串输出提升为变量，设置最大帧数为4，相当于生成4张图像。通过编码器传递，我们可以批量预览各种提示词。设置结束帧为4，最终生成4张图像。打开采样器进行生成，我们可以看到不同风格的动物图像。

接下来，我们尝试生成人物图像。我们可以简单修改，去掉动物的提示词，只保留风格提示词。在批次中，我们可以设置一个置顶的文本，如“beautiful girl”，这样前置文本即为该女孩，后续文本则带有不同风格。再次生成，我们可以看到各种风格的女孩图像，如水彩风格、写实风格等。尽管对于肖像或近景构图效果尚可，但远景效果仍需改进。我们可以尝试添加肖像风格，以观察效果。

手动调整风格，包括水彩、幻想风、写实照片和动漫风格。
去除通用符，进行逐一修改。
添加正向提示词，设置在指定文本中，并将女孩添加到附加文本中。
重复添加正向提示词的操作。

之后，我们可以手动调整其风格。逐一修改，去除通用符，选择水彩、幻想风、写实照片和动漫风格。由于效果需要，我们添加一个正向提示词，简单地设置一个正向提示。将我们的女孩添加到附加文本中，并将正向提示词设置到指定文本中。接下来，我们再次添加一个正向提示词，简单地设置一个正向提示。将我们的女孩添加到附加文本中，并将正向提示词设置到指定文本中。接下来，我们再次添加一个正向提示词，简单地设置一个正向提示。

这里我们来看一下这个风格，第一个水彩的，第二个是写实的。

描述了几个手部模型的效果，指出它们存在问题，如多出一根手指、细节处理不佳。
提到这些模型是基础模型，细节未深入调校。
计划进行宏观分析和多模型比较，并已进行了一些调整。

第三个是幻想，第四个是Anime，但并不特别鲜明。接下来，我们尝试使用这只手，微笑着向观众招手，效果只能说一般。这个手多了一根手指，完全无法接受。而这一只也同样不理想。相比之下，这个稍好一些。我们再试一批，发现它们更为粗糙。由此可见，这个模型仅是一个基础模型，对细节的处理并未进行深入调校。接下来，我们将进行宏观分析，进行多模型的比较。在这里，我特意进行了一些调整。

下午时间创建了一个测试工作流，该工作流规模较大，我们可以观察到。

这里放置了三种不同的模型，第一种是SDXL，我使用的是基础版本1.0的SDXL模型。

那么第三个呢就是Cascade，这三个模型生成了三个模型。

使用了SD中的一键题词插件，该插件支持GL和提示词通道。
插件允许选择不同风格、类型、主体和emoji表情。
目前插件未更新专门针对SD3的题词，因此统一使用SDXL的题词。
插件可以生成三个不同clip所需的文本，并随机选择艺术风格、类型、主体等。
作者对插件进行了调整，单独提升了题词所需的所有组件，包括随机强度。

我们来对比一下，同时这里我使用的是一键题词的插件，之前在SD中跟大家讲过的这个一键题词。在配置中，自然也是有的，这里可以看到它分为GL以及提示词，不同的通道，可以选择不同的风格、类型、主体，以及emoji表情等，非常丰富。我们需要生成哪一类的，目前还没有更新出专门针对SD3的题词，所以这里我们统一使用SDXL的，因为它包含了GL。第一个宏观提示词，我们可以给到SD的T5这样一个clip。这个题词很简单，我们可以预览一下，它会同时生成三个不同的clip所需的文本，我们直接预览并生成。我们设置任何东西时，它会直接随机选择，如艺术风格、类型、主体等，选好后直接出题词。可以看到我们这边的题词已经出来了，这个插件还是比较好用的，但不能保证题词的精度能适合SD3，所以我在这里做了一些工作。在题词这个组里，我把它需要的所有组件都单独提升出来了，包括随机强度等。

之后，我进行了字符串处理，因为一键提示词生成的提示词可能包含双引号。

双引号是ZIF节点的一种特殊格式。
零帧是ZIF节点处理的一种方式。
如果提示词中夹杂其他字符，ZIF节点无法正确识别。
为了解决识别问题，所有包含特定符号的提示词被替换为空。
对提示词的GLI进行了字符串操作测试，并得到了结果反馈。

这个双引号实际上是ZIF节点的一种特殊格式。我们在这里扩展一下，这是零帧，这是它的处理方式。随后，在零帧后输入的提示词中，如果出现额外的符号，例如提示词中间夹杂了其他字符，该节点将无法正确识别。因此，在字符串操作中，我将所有包含该符号的提示词替换为空，去除了该符号。接着，对提示词的GLI进行了字符串操作测试，最终结果反馈给我们。

创建了7个字符串连接。
生成的字符串被存入缓存。
可以预览缓存中的内容。
从缓存中读取数据，包括G、L和全局提示词F。
数据对接至生成工作流。
使用了“one button prompt”插件的自动负面提示词功能。
生成了一个负面提示词。

刚才我们提到的字符串连接，共提供了7个，因此我创建了7个连接。连接完成后，生成了字符串，我们将其存入缓存，以便保存。在此，我们可以进行预览。最后，我们从缓存中读取数据，包括G和L，而F则代表全局提示词。随后，我们将此对接至下方的生成工作流。此外，我还设置了一个自动负面提示词，这是我们“one button prompt”插件中的功能之一。我们可以看到，这里生成了一个负面提示词。

提供了三个不同的流程：SDXL、Cascade和SD3。
SDXL流程中，输入的是G和L的文本。
Cascade流程中，只有一个文本输入，使用全局提示词。
SD3流程中，实验性地进行了提示词的分离，包括宏观提示词和SDXL的L和G输入，并通过Combine将两者结合。
提出了使用T5专门的编码器作为更好的文本处理方式，但由于其专业性，未被采用。

也给了他们三个流程。具体的方式，SDXL就不用说了，我输入的是G和L的文本。下面的Cascade只有一个文本输入，所以我给到的是全局提示词，即宏观的提示词。对于SD3，我实验性地做了一个提示词的分离。首先，我给它一个宏观的提示词，使用普通提示词的P次节点。同时，我还给它SDXL的L和G输入。最后，将这两个P次进行Combine。因此，这边是SDXL的P次加1.5的P次，一个接收全局宏观，一个接收SDXL。我只能通过这种方式传给它，但更好的方式是使用T5专门的编码器，即文本编码框。然而，由于它是T5专门的编码器，那样一个文本编码框。

由于文本编码框不支持批处理，因此无法进行此操作。希望未来FIZZ能够开启SD3调度功能，预计后续会进行更新，目前尚未更新，因此我们只能暂时使用现有流程。后续步骤与之前相同，即遵循此流程。

然后我们使用这个提示词，随意生成一些内容，首先打开我们的提示词组。

参数设置为7，用于生成7张不同图像。
关闭了其他所有组，只保留一个缓存，防止重复调用。
未设定风格主题，系统将随机选择并生成图像。
生成过程中，系统会逐一提示关键词。
生成完成后，相关文本将自动标记关键帧。
之后，关闭提示词功能，开启XL渲染、SD3渲染和Casket渲染。

我们将参数设置为7，以生成7张不同的图像。在此之前，我们已关闭其他所有组，以便只生成一个缓存，避免重复调用。目前未设定任何风格主题，系统将随机选择并生成7张图像。生成过程中，系统将逐一提示关键词。生成完成后，所有相关文本将自动标记关键帧。随后，我们可以关闭提示词功能，并开启XL渲染、SD3渲染和Casket渲染。

然后呢，我们来直接渲染声场。

最左边是Cascade，中间是SD3，右边是SDXL。

这三张我觉得Cascade比较好的，那SDXL也很适合。

对于人物而言，Cascade模型更具有风格性，特别是SD3模型。

该作品风格性不强，画面存在问题，可能是由于合并方式不当所致，但整体观感尚可。

提示词使用可能不准确，建议直接使用单独的提示词。
描述了三组不同的生成图像：
- 第一组是SDXL，内容为一组车的风景。
- 第二组是SD3，内容为一组车的风景，增加了一个人物，两侧均为车辆，无异常。
- 第三组是Cascade，内容为人物特写，展示的是SD4。
SD3的图像风格中规中矩，无特定风格。

可能由于我提供的提示词不准确，我们直接使用单独的提示词更为保险，再进行一批生成。刚才未作标注，因此我表述有误。第一个是SDXL，第二个是SD3，第三个是Cascade。同样是一组车的风景，SD3显得更为中规中矩，无特定风格。第二个是SD3，增加了一个人物，两侧均为车辆，无异常。第三张为人物特写，展示的是SD4。

SD3模型权重偏高，建议调整至3.5。
风景图像处理效果尚可，但人脸图像处理不佳。
图像变形问题源于基础数据质量不佳。
房间描述模糊导致图像风格不一致。
最后一张图像的水珠和水滴效果最佳，推荐使用SDXL模型。

SD3的权重仍然偏高，需要适当降低至3.5。对于风景图像，SD3表现尚可。第三张尝试了人脸图像，而最后一张与第一张相比略有变形，表明其基础数据质量不佳。由于此类图像非普通人能轻易生成，因此关键在于基础数据的质量。房间的描述较为模糊，导致生成的三张图像风格各异。最后一张图像中的水珠和水滴效果最佳，推荐使用SDXL模型。接下来，我们将继续查看下一组图像。

首先我们来看一组风景。我们来到设置界面，由于翻译插件的问题，我将这些名称进行了修改。但重新加载工作流后，它们又恢复了原样。这是无法避免的，只能重新查找。我们选择一个风景主题。

我们保持其他设置不变，直接生成。初步观察，SDX的表现更为出色。相比之下，SD3的表现较为平淡，但其色彩处理和想象力较为丰富。这主要涉及到风格训练的问题。我们已降低了相应的权重。

作者对SDXL、casekit和SD3的表现进行了评价，认为SDXL表现最好，其次是casekit，SD3排名第三。
作者指出，单独比较提示词时，这些工具的表现并不特别突出。
作者计划进行进一步的测试。

还是有一些过，这一张各有特色。接下来，我认为SDXL表现较好，其次是casekit，第三是SD3。通过这样的对比，大家应该能大致了解它们的水平。如果是单独比较提示词，它们并不显得特别突出。最后，我们将进行进一步的测试。

一组人物吧，测试一组女性。

大家应该都喜欢看这位美女，接下来我们进行调整，选择通用选项，其他设置保持不变，再次生成，可以看到效果仍然不尽人意。

一样最好的还是SDXL。要注意我现在用的这个SDXL

XL是基础模型，最原始的Base 1.0的模型。

能体现出来整体的风格。那Cascade呢，稍微有些一般吧。

对于动漫的可以看到它就不太强，而对于SD3真的就不太强。

我怀疑是否配置错误，因为我们使用的是PF8的精度，并非实际的PF8。

讨论了使用不同版本的提示词（SDXL、1.5版本、Cascade风格）对效果的影响。
指出如果需要提供Cascade的GHL张量，可能会导致SDXL调度编码报错，因为张量不一致。

是否因为此原因？还有一个问题，即此处的提示词，我提供的是SDXL风格提示词，若提供1.5版本或Cascade风格，我们尝试一下，观察其效果。若此处需提供Cascade的GHL张量，可能导致SDXL调度编码报错，因其张量不一致。

我们将直接统一设置为默认的 SDXL，不再使用其他选项如 G 或 L，取消这些设置，仅提供一个提示词，然后重新生成一轮。

其实用处不太大。

X4D XL 的质量略有下降，Casket 也未进行调整。

OUYSD3 模型表现不佳。
其他两个模型在各方面优于 OUYSD3。
OUYSD3 属于基础模型，风格训练不足。
尽管数据训练充分，但使用提示词测试时差距明显。

而 OUYSD3 呢，仍然表现不佳。相比之下，其他两个模型在各方面都要优于 OUYSD3。因此，OUYSD3 仍然属于基础模型，其风格训练不足。尽管在数据训练上可能更为充分，但直接使用提示词进行测试时，仍显示出明显的差距。

如果我们在此基础上采用这种方式进行丰富，观察是否能得到改善。这是第四章，我们直接复制第四章的提示词，并进行更为精彩的处理。

使用特定方法后，效果未达预期。
原因不明，可能与模型本身或版本有关。
建议尝试重新下载PF16版本。
提到liblib支持在线生成，将进行进一步验证。

可以看到，即使使用了该方法，效果仍不理想，具体原因尚不清楚，可能是模型本身的问题，也可能是需要重新下载PF16版本进行尝试。本期内容到此结束。最后，我们将再次复制提示词，因为之前提到liblib支持在线生成，我们将进一步验证这一点。

我们使用liblibartlib3的在线生图功能，直接复制了提示词。

Liblibartlib3模型表现尚可，但仍需优化。
作者计划进一步探讨Liblibartlib3的具体问题。
作者之前偏好Cascade模型，但测试显示SD模型效果更佳。
作者将分享工作流，供大家测试不同模型和流程。
鼓励大家在评论区交流优化模型和流程的经验。
提供交流群供新手和有经验者共同探讨问题。

我们直接来生成。可以看到Liblibartlib3的表现还可以。那为什么本地生成的就不行呢?所以现在看来，它还是基础模型，还需要进一步的优化。如果大家还像我一样不甘心，我们之后会详细讨论它具体在哪一方面出了问题。之后我可能会再摸索一段时间，看一看到底它遵循什么规律。不可能比这两个都差。像之前我还是挺侧重于Cascade，我比较喜欢它的感觉。但是经过今天这么一测，其实SD的效果要更好。那么这就是这一期要跟大家分享的内容了。之后我也会把这个工作流发出来。大家如果想实验一下，想跑一下不同的模型或者跑一下不同的流程，具体是什么效果的话，可以用这个工作流。然后大家如果测出来哪些可行性，怎么优化这个模型出的图，也可以在评论区下方多多交流。如果还不太明白的小伙伴也可以加入我们的交流群。有很多大神们一起探讨，有什么问题也能及时解决。那么最后还要说的就是，这个新手不知道去哪下模型，如果有问题的话，可以在评论区下方多多交流。

目前存在两种版本的V3：在线生成的V3和高级版V3。
高级版V3可能通过调用官方API实现，其效果显著。
计划对比官方API调用与本地模型调用的效果，以验证是否使用的是优化后的高级模型。

现在我们可以看到，它现在分为在线生成的V3以及我们刚才使用的高级版V3。高级版V3应该是调用了官方的API，否则效果为何如此出色？如果有兴趣，之后我们可以再对比一下调用官方API和我们本地调用模型是否效果一致或相似。如果不一致，那就说明官方仅开源了其基础模型，通过API调用的是其优化后的高级模型。

Libu在线生成平台全面支持SD3模型的调用。
该平台可能是SD3上线最快的在线生成平台。
用户复制粘贴提示词并设置采样器。
默认选择2M，迭代步数设为25步，提示强度调整为3.5。
图片数量增加至3张，用于对比。

现在尝试在Libu的在线生成平台，可以看到它已全面支持SD3模型的调用，这应该是SD3上线最快的在线生成平台。我们将刚才的提示词复制并粘贴到这里，然后对下面的采样器进行设置。由于WebUI与CAPEI存在差异，我们默认选择2M。迭代步数设为25步，提示强度调整为3.5，图片数量增加至3张，以便于对比。

讨论了conf UI的Noise生成方式与SD生成方式的差异。
建议尝试将生成方式改为SD以观察效果改善。
指出使用web UI进行生成操作的便捷性。

现在我们来生成。这样的结果与API调用相似，差异可能源于conf UI的Noise生成方式与SD的生成方式不同，这一点我们之前已经讨论过。最后可以尝试将生成方式改为SD，看是否有改善。因此，习惯使用web UI的朋友在此处生成还是比较方便快捷的。这就是本期内容。

本期内容已全部分享完毕。若对您有所启发和参考价值，请不要忘记点击关注。后续还将有更多资讯、新闻及应用与大家分享。本期到此结束，下期再见。

本文总结

SD第三代模型SD3基于SDXL进行训练，增强了TVE解码部分，改善了对提示的理解和元素融合能力。
SD3采用了三种Clip编码，增加了文本编码器，训练数据量更大。
介绍了Config UI的批处理操作，包括不同工作流的使用和动态提示词插件的安装。
讨论了模型的获取和配置，以及如何通过LibLib网站下载和使用资源。
进行了不同模型的生成效果比较，探讨了提示词的调整和优化，以及在线生成与本地生成的差异。

金句摘抄

“SD3的架构基于SDXL进行训练，首先我们可以看到TVE解码部分得到了大幅增强，现在通道数为16。”
“这一新一代模型采用了三种Clip编码，在SDXL中，我们有两个编码器，一个是L，一个是G。”
“对于国内用户，需下载并加载这些模型，最佳访问的资源网站是LibLib。”
“在服务器这边，我们来直接打开这个工作流，我已经等待半天了。”
“我们来看一下这个风格，第一个水彩的，第二个是写实的。”

QA

SD3与之前的模型架构有何不同？
- SD3基于SDXL进行训练，增强了TVE解码部分，改善了对提示的理解和元素融合能力，并采用了三种Clip编码。
Config UI的批处理操作包括哪些内容？
- Config UI的批处理操作包括基础工作流、提词强化工作流和传统放大工作流，以及动态提示词插件的使用。
如何获取和配置模型资源？
- 可以通过访问LibLib网站下载模型和资源，配置服务器和文件管理，以及使用题词卡片。
不同模型的生成效果如何比较？
- 通过调整提示词和优化设置，可以比较不同模型的生成效果，探讨在线生成与本地生成的差异。
如何使用动态提示词插件？
- 动态提示词插件可以在Manager中搜索“Dynamic”，安装后可以在新建节点处显示动态提示词，使用通配符文件进行随机调用。

结语

通过本篇文章的详细评测与教程，相信大家对最新的Stable Diffusion 3 (SD3) 模型有了更深入的了解。无论是模型的架构改进、性能提升，还是实际使用中的小技巧，我们都进行了全面的覆盖和解析。希望这些内容能为您的AI绘画创作提供帮助和灵感。

如果您觉得本期内容对您有所启发和参考价值，请不要忘记点击关注我们。关注不仅能让您第一时间获取最新的技术资讯和应用指南，还能帮助我们为您提供更优质的内容。此外，您也可以扫描下方的二维码，加入我们的交流社群。群内有众多AI技术爱好者和专业人士，大家可以在这里分享经验、解决疑问、共同进步。
在这里插入图片描述