logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2021,InfoMax-GAN)通过信息最大化和对比学习改进对抗图像生成

虽然GAN是很多生成模型的基础,但仍面临很多问题。本文,作者提出了一个原则框架来同时缓解GAN的两个基础问题:鉴别器的遗忘和生成器的模式坍塌。实现办法:为GAN加入对比学习和互信息最大化的方法,并通过广泛分析理解性能提升的原因。相比于最新的的研究,本方法极大地稳定了GAN的训练,提升了GAN生成图像的性能。特别地,在图像域(例如:人脸),相比于最新的SSGAN,本方法有更好的性能。本方法是实用且易

文章图片
#生成对抗网络#人工智能#神经网络
(2025|南大,LLM,强化学习,离线逆强化学习,下一 token 预测,内生奖励)在 LLM 中发现通用奖励模型

本文发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的,因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的,而是理论上等同于通过离线逆强化学习学到的奖励函数,它可带来优越于基础模型的策略

文章图片
#机器学习
(2024,手部生成,关键点热图,修复和外画,SD)Giving a Hand to DM:改进条件人类图像生成的两阶段方法

本文提出一种姿势条件的人类图像生成方法。它分为两个阶段:首先在多任务设置中训练手部生成器,基于关键点热图产生手部图像及其相应的分割掩模;​然后,在第二阶段使用调整后的 ControlNet 模型来在生成的手部周围绘制身体。

文章图片
#深度学习#计算机视觉
(2022,MoCA)Few-shot 图像生成的原型记忆(Prototype Memory)和注意力机制

本文提出了记忆概念注意力(Memory Concept Attention,MoCA),用于提高 few-shot 图像生成质量。MoCA 只是一个模块,可以插入到 GAN 框架中任何现存的生成器架构层中。

文章图片
#原型模式#深度学习#生成对抗网络 +1
(2022,DALL·E2,CLIP,Diffusion,AR)使用 CLIP 潜在空间的分层文本条件图像生成

本文提出了一个两阶段模型:先验模型根据给定的文本标题生成 CLIP 图像嵌入,解码器生成以 CLIP 图像嵌入为条件的图像。该方法可以提高图像多样性,同时将照片真实性和标题相似性的损失降至最低。

文章图片
#计算机视觉
(2021|CVPR,XMC-GAN,对比学习,注意力自调制)用于文本到图像生成的跨模态对比学习

为改进本文到图像对齐,本文提出 XMC-GAN。它通过多个对比损失来捕捉模态间和模态内的对应关系。它使用注意力自调制生成器,强化文本与图像的对应关系,以及一种对比鉴别器,既进行评判又作为对比学习的特征编码器。

文章图片
#生成对抗网络#学习#深度学习
(2022,StyleGAN-NADA)CLIP引导的非对抗域自适应图像生成器

使用大尺度对比语言图像预训练模型(Contrastive-Language-Image-Pretraining(CLIP) models)的语义功能,不需要任何的图像参考,就能基于文本把一个生成式模型迁移到新的域(domain shift)。基于文本引导和更短时间的训练,生成器可以生成多种风格和外形的图像。

文章图片
#深度学习#人工智能#计算机视觉
(2024,L-DAE,去噪 DM,去噪 AE,影响 SSRL 性能的关键成分,PCA 潜在空间)解构自监督学习的去噪扩散模型

在这项研究中,我们研究了去噪扩散模型(Denoising Diffusion Models,DDM)的表示学习(representation learning)能力,这些模型最初是为图像生成而设计的。我们的理念是解构一个DDM,逐渐将其转化为经典的去噪自动编码器(Denoising Autoencoder,DAE)。这个解构过程使我们能够探索现代 DDM 的各个组件如何影响自监督表示学习(self

文章图片
#人工智能
(2024,提示解析,模型思维树和基于反馈的选择,提示扩展和图像生成)DiffusionGPT:LLM 驱动的文本到图像生成系统

本文提出了 DiffusionGPT,为各种生成模型构建领域特定的树。它使用 LLM 解析提示,构建生成模型思维树,并基于人类反馈选择合适的模型,从而放宽输入限制,确保在不同领域表现出色。

文章图片
#深度学习#人工智能#计算机视觉
(2024,IXC2-4KHD,LVLM,动态图像分割,高分辨率图像处理)InternLM-XComposer2-4KHD

IXC2-4KHD 将 LVLM 分辨率能力提升到4K HD甚至更高。它提出动态图像分割,在保留了训练图像宽高比的同时,根据预训练的 ViT 自动变化补丁数量并配置布局,从而实现了从 336 像素到 4K 标准的动态训练分辨率。

文章图片
#计算机视觉#人工智能#深度学习
    共 193 条
  • 1
  • 2
  • 3
  • 20
  • 请选择