
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文揭示自回归大型语言模型(LLMs)在泛化方面的一个令人惊讶的失败。如果模型在类似 “A is B” 的句子上进行训练,它不会自动泛化到反方向 “B is A”。这就是逆转诅咒(Reversal Curse)。

本文提出了 SaFaRI,解决图像恢复中的噪声逆问题。它使用修改的数据保真度项,通过双三上采样和傅里叶变换来分别结合空间和频率特征。

本文提出了 LAFITE,这是一种基于预训练 CLIP 模型 的生成对抗方法,利用预训练 CLIP 模型的多模态语义空间对齐属性,通过从图像特征生成文本特征,从而无需用于获取图像-文本对的图像标题。

本文提出了 Cosmos-Reason1 系列多模态大语言模型,专注于提升物理人工智能系统在物理常识与具身推理方面的能力。模型能够通过对视频等视觉输入的理解,结合长链式思维过程,在自然语言中做出符合物理逻辑的推理与决策。

Seaweed-7B 是一个具备约 7B 参数的中型视频生成基础模型,展示了中等规模模型在视频生成中的巨大潜力,其高效的数据处理、模型设计和优化策略使其在有限资源下依然具备极强的通用性与生成能力。

本文改进现有的噪音采样技术,用于训练整流流模型,使其偏向感知上相关的尺度。还提出了一种基于 DiT 的 T2I 结构,它为两种模态使用独立权重,并实现了图像和文本 token 之间的双向信息流。

MOSS-MED 是专注于医学图像分析的 MLLM,旨在结合视觉理解和医学知识,为医学图像分析提供精准的辅助诊断和报告生成能力。通过两阶段训练流程,MOSS-MED 实现了对医学图像的精准理解,尤其在生物医学 VQA 任务中表现出色。

不同的模型对不同属性的敏感程度不同。作者通过模糊不同的属性来探索这些属性对评估指标(FID)的影响。这种更细致的评估可以减轻偏差以及提高生成模型的整体质量。

本文提出扩散模型修补(DMP),可提升已收敛的预训练扩散模型的性能且仅增加微量参数。DMP 保持原始模型冻结,并利用动态门控将一组时间步特定的可学习提示集成到每个时间步的模型行为中,根据去噪过程中的当前时间步(或噪声水平)自适应地组合提示。

本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法
