
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
虽然GAN是很多生成模型的基础,但仍面临很多问题。本文,作者提出了一个原则框架来同时缓解GAN的两个基础问题:鉴别器的遗忘和生成器的模式坍塌。实现办法:为GAN加入对比学习和互信息最大化的方法,并通过广泛分析理解性能提升的原因。相比于最新的的研究,本方法极大地稳定了GAN的训练,提升了GAN生成图像的性能。特别地,在图像域(例如:人脸),相比于最新的SSGAN,本方法有更好的性能。本方法是实用且易

本文发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的,因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的,而是理论上等同于通过离线逆强化学习学到的奖励函数,它可带来优越于基础模型的策略

本文提出一种姿势条件的人类图像生成方法。它分为两个阶段:首先在多任务设置中训练手部生成器,基于关键点热图产生手部图像及其相应的分割掩模;然后,在第二阶段使用调整后的 ControlNet 模型来在生成的手部周围绘制身体。

本文提出了记忆概念注意力(Memory Concept Attention,MoCA),用于提高 few-shot 图像生成质量。MoCA 只是一个模块,可以插入到 GAN 框架中任何现存的生成器架构层中。

本文提出了一个两阶段模型:先验模型根据给定的文本标题生成 CLIP 图像嵌入,解码器生成以 CLIP 图像嵌入为条件的图像。该方法可以提高图像多样性,同时将照片真实性和标题相似性的损失降至最低。

为改进本文到图像对齐,本文提出 XMC-GAN。它通过多个对比损失来捕捉模态间和模态内的对应关系。它使用注意力自调制生成器,强化文本与图像的对应关系,以及一种对比鉴别器,既进行评判又作为对比学习的特征编码器。

使用大尺度对比语言图像预训练模型(Contrastive-Language-Image-Pretraining(CLIP) models)的语义功能,不需要任何的图像参考,就能基于文本把一个生成式模型迁移到新的域(domain shift)。基于文本引导和更短时间的训练,生成器可以生成多种风格和外形的图像。

在这项研究中,我们研究了去噪扩散模型(Denoising Diffusion Models,DDM)的表示学习(representation learning)能力,这些模型最初是为图像生成而设计的。我们的理念是解构一个DDM,逐渐将其转化为经典的去噪自动编码器(Denoising Autoencoder,DAE)。这个解构过程使我们能够探索现代 DDM 的各个组件如何影响自监督表示学习(self

本文提出了 DiffusionGPT,为各种生成模型构建领域特定的树。它使用 LLM 解析提示,构建生成模型思维树,并基于人类反馈选择合适的模型,从而放宽输入限制,确保在不同领域表现出色。

IXC2-4KHD 将 LVLM 分辨率能力提升到4K HD甚至更高。它提出动态图像分割,在保留了训练图像宽高比的同时,根据预训练的 ViT 自动变化补丁数量并配置布局,从而实现了从 336 像素到 4K 标准的动态训练分辨率。
