logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2023)逆转诅咒:由“A is B”训练的LLM没有学到“B is A”

本文揭示自回归大型语言模型(LLMs)在泛化方面的一个令人惊讶的失败。如果模型在类似 “A is B” 的句子上进行训练,它不会自动泛化到反方向 “B is A”。这就是逆转诅咒(Reversal Curse)。

文章图片
#人工智能#深度学习
(2024,SaFaRI,双三上采样和 DFT,空间特征和频率特征)基于扩散模型的图像空间和频率感知恢复方法

本文提出了 SaFaRI,解决图像恢复中的噪声逆问题。它使用修改的数据保真度项,通过双三上采样和傅里叶变换来分别结合空间和频率特征。

文章图片
#深度学习#计算机视觉#机器学习
(2022|CVPR,无语言模型,StyleGAN2,CLIP,图文特征对齐)LAFITE:迈向文本到图像生成的无语言训练

本文提出了 LAFITE,这是一种基于预训练 CLIP 模型 的生成对抗方法,利用预训练 CLIP 模型的多模态语义空间对齐属性,通过从图像特征生成文本特征,从而无需用于获取图像-文本对的图像标题。

文章图片
#计算机视觉#深度学习#人工智能
(2025|NVIDIA,监督微调,强化学习,LLaVA,Mamba)Cosmos-Reason1: 从物理常识到具身推理的探索

本文提出了 Cosmos-Reason1 系列多模态大语言模型,专注于提升物理人工智能系统在物理常识与具身推理方面的能力。模型能够通过对视频等视觉输入的理解,结合长链式思维过程,在自然语言中做出符合物理逻辑的推理与决策。

文章图片
#人工智能
(2025|字节,VAE,DiT,多阶段训练,并行,蒸馏,内核融合)Seaweed-7B:经济高效的视频生成基础模型训练

Seaweed-7B 是一个具备约 7B 参数的中型视频生成基础模型,展示了中等规模模型在视频生成中的巨大潜力,其高效的数据处理、模型设计和优化策略使其在有限资源下依然具备极强的通用性与生成能力。

文章图片
#人工智能#深度学习
(2024,SD3,整流流,定制的采样器,DiT)扩展整流流 transformer 以实现高分辨率图像合成

本文改进现有的噪音采样技术,用于训练整流流模型,使其偏向感知上相关的尺度。还提出了一种基于 DiT 的 T2I 结构,它为两种模态使用独立权重,并实现了图像和文本 token 之间的双向信息流。

文章图片
#transformer#人工智能#深度学习
(2024|ACM TIMS|复旦)MOSS-MED:服务于医学图像分析的医学多模态模型

MOSS-MED 是专注于医学图像分析的 MLLM,旨在结合视觉理解和医学知识,为医学图像分析提供精准的辅助诊断和报告生成能力。通过两阶段训练流程,MOSS-MED 实现了对医学图像的精准理解,尤其在生物医学 VQA 任务中表现出色。

文章图片
#人工智能#语言模型#计算机视觉
(2023,属性敏感性)FD:关于理解深度特征空间对人脸生成评估的作用

不同的模型对不同属性的敏感程度不同。作者通过模糊不同的属性来探索这些属性对评估指标(FID)的影响。这种更细致的评估可以减轻偏差以及提高生成模型的整体质量。

文章图片
#深度学习#人工智能
(2024,扩散,DMP,提示混合,动态门控,阶段特异性,微调)通过混合提示进行扩散模型修补

本文提出扩散模型修补(DMP),可提升已收敛的预训练扩散模型的性能且仅增加微量参数。DMP 保持原始模型冻结,并利用动态门控将一组时间步特定的可学习提示集成到每个时间步的模型行为中,根据去噪过程中的当前时间步(或噪声水平)自适应地组合提示。

文章图片
#深度学习#计算机视觉
(2025|HKUST & JHU,MeWM,VLM,疾病演化模拟,治疗策略优化)医学世界模型:用于治疗计划的肿瘤演化生成模拟

本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法

文章图片
#计算机视觉
    共 161 条
  • 1
  • 2
  • 3
  • 17
  • 请选择