
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
可控图像生成 unCLIP: Hierarchical Text-Conditional Image Generation with CLIP Latents(DALLE2)
虽然解码器可以反转 CLIP 图像嵌入ziz_izi以生成图像xxx,但我们需要一个先验模型,从标题yyy生成ziz_izi,以便从文本字幕生成图像。自回归 (AR) 先验:将 CLIP 图像嵌入ziz_izi转换为离散代码序列,并以标题yyy为条件进行自回归预测。扩散先验: 连续向量ziz_izi直接使用高斯扩散模型建模,以字幕yyy为条件。我们可以将 CLIP 文本embeddingz

batch, patch, token,iteration, epoch分别是什么?
在训练神经网络时,不是一次性将所有数据输入模型,而是将数据分成小批量(batches),然后逐批输入模型进行训练。

可控图像生成 SeeCoder: Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models 论文解读
这种方法已成为最受下游用户欢迎的方法之一,因为它:a) 与提示相比,将结构与内容分离可对结果进行。

DDPM的基本原理(无公式版)
马尔可夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态。如果用精确的数学定义来描述,则假设我们的序列状态是。

可控图像生成:Composer: Creative and Controllable Image Synthesis with Composable Conditions
当条件是可组合的而不是独立使用时,生成模型的控制空间可以大大扩展。此外,我们提出了多种基于无分类器和双向指导的 Composer 用于一系列图像生成和操作任务的方法,为未来的研究提供有用的参考。尽管我们在 4.3 节中凭经验找到了一种简单、可行的多条件联合训练配置,但该策略并不完美,例如,它可能会降低单条件生成性能的权重。例如,如果无法访问全局嵌入,则基于草图或基于深度的生成通常会生成相对较暗的图

到底了