EDPJ 个人主页

@qq_44681809

EDPJ

2022-12-16 19:41:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

（2021，InfoMax-GAN）通过信息最大化和对比学习改进对抗图像生成

虽然GAN是很多生成模型的基础，但仍面临很多问题。本文，作者提出了一个原则框架来同时缓解GAN的两个基础问题：鉴别器的遗忘和生成器的模式坍塌。实现办法：为GAN加入对比学习和互信息最大化的方法，并通过广泛分析理解性能提升的原因。相比于最新的的研究，本方法极大地稳定了GAN的训练，提升了GAN生成图像的性能。特别地，在图像域（例如：人脸），相比于最新的SSGAN，本方法有更好的性能。本方法是实用且易

#生成对抗网络 #人工智能 #神经网络

（2025|南大，LLM，强化学习，离线逆强化学习，下一 token 预测，内生奖励）在 LLM 中发现通用奖励模型

本文发现，一个强大的通用奖励模型并非需要构建，而是可以挖掘出来的，因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的，而是理论上等同于通过离线逆强化学习学到的奖励函数，它可带来优越于基础模型的策略

#机器学习

（2024，手部生成，关键点热图，修复和外画，SD）Giving a Hand to DM：改进条件人类图像生成的两阶段方法

本文提出一种姿势条件的人类图像生成方法。它分为两个阶段：首先在多任务设置中训练手部生成器，基于关键点热图产生手部图像及其相应的分割掩模；然后，在第二阶段使用调整后的 ControlNet 模型来在生成的手部周围绘制身体。

#深度学习 #计算机视觉

（2022，MoCA）Few-shot 图像生成的原型记忆（Prototype Memory）和注意力机制

本文提出了记忆概念注意力（Memory Concept Attention，MoCA），用于提高 few-shot 图像生成质量。MoCA 只是一个模块，可以插入到 GAN 框架中任何现存的生成器架构层中。

#原型模式 #深度学习 #生成对抗网络 +1

（2022，DALL·E2，CLIP，Diffusion，AR）使用 CLIP 潜在空间的分层文本条件图像生成

本文提出了一个两阶段模型：先验模型根据给定的文本标题生成 CLIP 图像嵌入，解码器生成以 CLIP 图像嵌入为条件的图像。该方法可以提高图像多样性，同时将照片真实性和标题相似性的损失降至最低。

#计算机视觉

（2021|CVPR，XMC-GAN，对比学习，注意力自调制）用于文本到图像生成的跨模态对比学习

为改进本文到图像对齐，本文提出 XMC-GAN。它通过多个对比损失来捕捉模态间和模态内的对应关系。它使用注意力自调制生成器，强化文本与图像的对应关系，以及一种对比鉴别器，既进行评判又作为对比学习的特征编码器。

#生成对抗网络 #学习 #深度学习

（2022，StyleGAN-NADA）CLIP引导的非对抗域自适应图像生成器

使用大尺度对比语言图像预训练模型（Contrastive-Language-Image-Pretraining(CLIP) models）的语义功能，不需要任何的图像参考，就能基于文本把一个生成式模型迁移到新的域（domain shift）。基于文本引导和更短时间的训练，生成器可以生成多种风格和外形的图像。

#深度学习 #人工智能 #计算机视觉

（2024，L-DAE，去噪 DM，去噪 AE，影响 SSRL 性能的关键成分，PCA 潜在空间）解构自监督学习的去噪扩散模型

在这项研究中，我们研究了去噪扩散模型（Denoising Diffusion Models，DDM）的表示学习（representation learning）能力，这些模型最初是为图像生成而设计的。我们的理念是解构一个DDM，逐渐将其转化为经典的去噪自动编码器（Denoising Autoencoder，DAE）。这个解构过程使我们能够探索现代 DDM 的各个组件如何影响自监督表示学习（self

#人工智能

（2024，提示解析，模型思维树和基于反馈的选择，提示扩展和图像生成）DiffusionGPT：LLM 驱动的文本到图像生成系统

本文提出了 DiffusionGPT，为各种生成模型构建领域特定的树。它使用 LLM 解析提示，构建生成模型思维树，并基于人类反馈选择合适的模型，从而放宽输入限制，确保在不同领域表现出色。

#深度学习 #人工智能 #计算机视觉

（2024，IXC2-4KHD，LVLM，动态图像分割，高分辨率图像处理）InternLM-XComposer2-4KHD

IXC2-4KHD 将 LVLM 分辨率能力提升到4K HD甚至更高。它提出动态图像分割，在保留了训练图像宽高比的同时，根据预训练的 ViT 自动变化补丁数量并配置布局，从而实现了从 336 像素到 4K 标准的动态训练分辨率。

#计算机视觉 #人工智能 #深度学习

共 193 条

请选择