
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如果你问任何一个强化学习研究者“入门该读什么书”,99%的人会毫不犹豫地推荐这本《作为强化学习领域的奠基之作,第一版自1998年出版以来,已经成为全球高校RL课程的标准教材,影响了整整一代AI研究者。2020年推出的第二版,在保留经典内容的基础上,全面更新了近20年的最新进展,包括深度强化学习、分布式RL、安全RL等前沿方向,厚度也从第一版的500多页增加到了近600页。

ResShift构建了一个连接高清图像和低分辨率图像的马尔可夫链(通俗解释:一个状态只能由前一个状态决定的链条)。更气人的是,如果你想加速,用DDIM、DPM-Solver这些快速采样算法把步数压缩到几十步,结果图像立刻变得模糊不清,细节全没了。在图像恢复领域,存在一个著名的"感知-失真权衡":感知质量好的模型,保真度往往较低;通俗解释:残差就是低分辨率图像和高清图像之间的差异,也就是我们需要恢复

直到SUPIR(Scaling-UP Image Restoration)的出现,它把大语言模型领域验证过的"模型缩放"定律引入图像恢复,用26亿参数的SDXL作为生成先验,搭配2000万张高质量图文训练数据,一举打破了这个不可能三角。通俗解释:生成先验就像一个见过数十亿张高清图像的"超级画家",它知道真实世界里的猫应该有什么样的毛发纹理,汽车应该有什么样的反光,人脸应该有什么样的五官比例。强大的

直到SUPIR(Scaling-UP Image Restoration)的出现,它把大语言模型领域验证过的"模型缩放"定律引入图像恢复,用26亿参数的SDXL作为生成先验,搭配2000万张高质量图文训练数据,一举打破了这个不可能三角。通俗解释:生成先验就像一个见过数十亿张高清图像的"超级画家",它知道真实世界里的猫应该有什么样的毛发纹理,汽车应该有什么样的反光,人脸应该有什么样的五官比例。强大的

首次将扩散模型成功应用于图像超分辨率,提出了条件去噪扩散模型的超分框架,证明了扩散模型在超分任务上的巨大潜力。在8倍人脸超分任务上取得了接近50%的人类欺骗率,生成的图像和真实照片几乎无法区分,远超同期的GAN模型。提出了级联生成的方法,通过串联多个SR3模型,实现了从64×64到1024×1024的高清图像生成,为高分辨率图像生成提供了新的思路。验证了传统自动指标的局限性,强调了人类评估在图像生

在unCLIP诞生前,文生图领域一直困在一个死胡同里:以GLIDE为代表的扩散模型,能生成高度逼真的图像,但引导强度一拉高,生成多样性就直接崩盘;以DALL-E为代表的自回归模型,多样性尚可,但逼真度和文本对齐度又差强人意。而此时CLIP模型已经证明,它能把文本和图像映射到同一个联合隐空间,学到的特征既能精准捕捉语义,又能完美复刻风格,简直是文生图的“天选向导”。OpenAI团队就此提出了一个颠覆

扩散模型在AIGC领域实现了跨越式突破,在图像、音频、视频生成任务上都交出了远超传统模型的答卷,但它有一个始终被行业诟病的致命短板:生成速度太慢。扩散模型的核心是迭代式采样,需要几十到上千次的网络前向传播,才能从纯噪声逐步还原出清晰的图像,相比GAN、VAE这类单步生成模型,推理耗时高出10~2000倍,直接限制了它在实时生成场景的落地。而单步生成的GAN又存在训练不稳定、模式崩溃、泛化能力差的问

预训练的SD模型,经常需要在自定义数据集上微调,来生成特定风格的图片(比如二次元、Pokemon、辛普森一家)。但传统的微调方法,会破坏模型的少步生成能力,微调后又得重新蒸馏,成本极高。LCM提出了潜空间一致性微调(LCF),专门解决这个问题:不用教师扩散模型,直接在预训练LCM的基础上,对自定义数据集做微调,同时完美保留少步生成能力。LCF的核心逻辑,和一致性训练(CT)一致:对同一张干净图片z

ddtϕtxvtϕtxdtdϕtxvtϕtxϕ0xxϕ0xx符号数学含义通俗解释ϕtx\phi_t(x)ϕtx流映射函数,将t=0时刻的输入x映射到t时刻的状态车队在t时刻的位置,从起点x出发,沿着路线开到的位置vt⋅v_t(\cdot)vt⋅时间依赖的向量场,由神经网络参数化,是CNF的核心学习目标导航给的行驶指令,告诉t时刻在位置ϕtx\phi_t(x)ϕtx。

它能让你用一张边缘图、姿势骨架图、深度图、甚至随手画的涂鸦,精准控制Stable Diffusion的生成过程,想让人物摆什么姿势就摆什么姿势,想让画面是什么构图就是什么构图,也因此成了AI绘图圈里当之无愧的「控制神器」。300万张图片训练的模型,效果直接拉满。ControlNet支持的控制条件极其丰富,包括Canny边缘、Hough直线、用户涂鸦、人体关键点、语义分割图、表面法线图、深度图、卡通








