logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OmniMamba:通过状态空间模型高效和统一的多模态理解和生成

成功需要站在巨人的肩膀上:本文观察到基于自回归范式的Emu3模型虽使用了海量数据和80亿参数,但其最终性能仍逊于数据与参数更少的混合生成范式模型JanusFlow。许多研究在保留LLM文本生成范式的同时,探索整合扩散模型、基于流的生成模型和矢量量化自回归模型等多样化视觉生成范式的影响。其中[MMU]/[T2I]为预定义任务token,[SOT]/[EOT]标记文本起止,[SOI]/[EOI]标记图

文章图片
DeepSeek-V3 技术报告 (Introduction)

其对话版本也超越了其他开源模型,并在一系列标准和开放式基准测试中达到了与领先闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的性能。在工程相关任务中,虽然DeepSeek-V3的表现略低于Claude-Sonnet-3.5,但仍以显著优势超越所有其他模型,展示了其在多样化技术基准测试中的竞争力。最后,总结了这项工作,讨论了DeepSeek-V3的现有局限性,并提出了未来研究

文章图片
《Nature》封面:DeepSeek-R1通过强化学习激发大语言模型的推理能力

通用推理是人工智能领域一个长期且艰巨的挑战。最近的技术突破,例如大型语言模型和思维链提示,在基础推理任务上取得了显著成功。然而,这种成功严重依赖于大量人工标注的示例,并且模型的能力在处理更复杂问题时仍显不足。本文研究表明,无需人类标注的推理轨迹,仅通过纯强化学习即可激发LLMs的推理能力。所提出的强化学习框架促进了高级推理模式的出现,例如自我反思、验证和动态策略调整。因此,训练出的模型在数学、编程

文章图片
#人工智能
MINT:用于增强图像生成的统一生成模型中的多模态思维链(Multi-modal Chain)

统一的生成模型在文本和图像生成领域已展现出卓越的性能。然而,当面对复杂且交织多条件的图像生成任务时,这些模型往往表现欠佳,因为仅依靠简单的文本到图像生成方式难以满足需求。针对这一挑战,我们首次提出了一种创新的统一生成模型——MINT,该模型通过引入原生多模态思维链(MCoT)技术,显著提升了图像生成能力。

文章图片
#深度学习#人工智能
A Survey on Mixture of Experts 混合专家模型综述(第二部分:混合专家系统设计)

因此,输入编码用于将同一专家的输入 token 聚合到连续的内存空间中,这是由门控路由的 token-专家映射决定的。带来的挑战,这些通信通常位于关键路径上,并指出由于缺乏独立计算,很难通过重叠内核粒度的通信和计算来隐藏其延迟。与专家计算(其操作与密集模型类似,并受益于 GPU 等硬件的广泛优化)不同,这些 MoE 操作的特点是。——一种数学上证明的特性——将多个稀疏分布的微块转换为 GPU 高效

文章图片
Img-Diff: 多模态大型语言模型的对比数据合成

结果显示,经过 Img-Diff 数据集调优的模型在 MMVP、Spot-the-Diff 和 Image-Edit-Request 等基准上的表现显著优于使用更大规模数据集训练的模型,如 GPT-4V 和 Gemini。本文使用该数据集对最先进(SOTA)的MLLMs(如MGM-7B)进行微调,在多个图像差异和视觉问答任务中,相较于使用更大规模数据集训练的SOTA模型,实现了性能得分的全面提升。

文章图片
视觉基础模型的可解释性综述 2025

arxiv.org随着人工智能系统日益融入日常生活,​可解释性领域引起了广泛关注。这一趋势尤其受到现代AI模型的复杂性及其决策过程的驱动。​基础模型的出现,以其广泛的泛化能力和新兴用途为特征,进一步复杂化了这一领域。​基础模型在可解释性领域中占据了一个模棱两可的位置:其复杂性使其本质上难以解释,但它们越来越多地被用作构建可解释模型的工具。在本综述中,探讨了基础模型与可解释人工智能(XAI)​在视觉

文章图片
Cautious Optimizers: Improving Training with One Line of Code 一种新的优化方法,仅用一行代码改进训练

摘要: 本文提出了一种简单高效的优化器改进方法——谨慎优化器(Cautious Optimizer),仅需一行代码即可显著提升现有基于动量的优化器(如AdamW、Lion)的性能。该方法通过梯度对齐检测(仅在与当前梯度方向一致时执行更新)避免无效振荡,在理论上保留了原优化器的收敛性,且能加速损失下降。实验表明,改进后的C-AdamW和C-Lion在LLaMA 1B预训练中分别实现1.47倍和1.2

文章图片
#人工智能
Ming-Omni:统一的多模态感知与生成模型​ (​​Inclusion AI, 蚂蚁集团​)

Ming-Omni:统一多模态感知与生成模型本文提出了Ming-Omni,一个突破性的统一多模态模型,能够同时处理图像、文本、音频和视频输入,并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征,通过创新的MoE架构(配备模态专属路由器)实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型,相关代码和权重已公开。

文章图片
#人工智能#深度学习
图像编辑的DeepSeek —— ICEdit : 基于大规模扩散Transformer的上下文生成式指令图像编辑

本文提出ICEdit框架,通过三大创新技术实现高效精准的指令式图像编辑:(1)上下文编辑范式,利用大规模扩散变换器(DiT)固有理解能力,将编辑指令转换为描述性提示;(2)极简参数微调策略,仅需0.1%传统训练数据(5万样本)和1%可训练参数;(3)早期过滤推理时缩放技术,通过视觉语言模型快速筛选高质量噪声样本。实验表明,ICEdit在EmuEdit和MagicBrush基准上达到最先进性能(VI

文章图片
#人工智能#深度学习
    共 137 条
  • 1
  • 2
  • 3
  • 14
  • 请选择