logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自回归、扩散、混合:三大统一多模态范式怎么选?

本文系统梳理了GPT-4o之后多模态生成的三大技术路线:1)纯自回归(AR)路线通过统一token化处理图文数据,架构简洁但生成效率低;2)纯扩散路线采用并行去噪生成,图像质量高但推理能力较弱;3)混合路线结合AR的语义规划和扩散的生成优势,成为当前主流方案。文章对比了各路线代表模型的技术特点、优势短板及适用场景,建议研究者从混合架构入手,重点关注tokenization、跨模态注意力和训练数据三

#人工智能#计算机视觉#机器学习
ICLR 2025 | 人工调参终结者!元智能体搜索让大模型自动编程性能提升25.9%!

本文提出"智能体系统自动设计"(ADAS)新范式,通过元智能体搜索算法实现智能体架构的自动化优化。该算法在代码空间中进行迭代探索,利用基础模型作为元智能体编程新的智能体,并基于不断增长的存档优化设计。实验表明,该方法在逻辑推理、数学、阅读理解和科学问题等多个领域显著优于人工设计的智能体,平均性能提升13.6-25.9%,同时展现出强大的跨领域和跨模型迁移能力。研究为智能体技术的

文章图片
#人工智能#深度学习#语言模型 +2
NeurIPS 2025 | 华科大NAUTILUS:基于物理先验,让多模态大模型看穿深海迷雾!

摘要:论文提出NAUTILUS模型,用于解决水下图像颜色失真、细节模糊等问题。通过构建145万问答对的大规模水下多任务数据集NautData,并设计基于物理先验的视觉特征增强(VFE)模块,该模型能在特征层面逆向修复水下图像退化信息。实验表明,NAUTILUS在目标检测、分类等8项任务上性能显著提升,尤其在恶劣水下环境中表现出强鲁棒性。该研究为水下智能探索提供了新基准,其可解释的物理建模方法和即插

文章图片
#人工智能#机器学习#深度学习
ICML 2025 | MMMC:揭示多模态大模型幻觉来源之一——模态冲突!

布朗大学与AWS团队在ICLR2025发表的研究提出新理论框架,从流形几何角度分析连续强化学习中的策略学习动态。研究发现,神经网络策略生成的状态分布存在于低维流形中,其维度与动作空间同阶。基于此,团队提出局部流形学习层,在MuJoCo等复杂控制任务中验证了性能提升。该研究首次系统揭示了连续RL训练的几何本质,为高维控制任务提供了新的优化思路和理论基础。

文章图片
#深度学习#人工智能#机器学习 +2
IEEE 26 | 参数量不是关键:4B模型VeriGround在匿名化电路生成任务上性能超越GPT-5.4

本文揭示了多模态大语言模型(MLLM)在"视觉到代码"任务中存在"海市蜃楼"缺陷:模型会绕过视觉输入,依赖文本提示中的语义信息生成代码模板,而非真正理解电路图。研究提出VeriGround解决方案,通过标识符匿名化训练数据和决策聚焦偏好对齐算法(D-ORPO),强制模型学习视觉拓扑结构。实验表明,4B参数的VeriGround在匿名化测试中功能正确率达42.

文章图片
#人工智能#机器学习#深度学习
新加坡国立大学最新研究:冻结Backbone,激活潜能:解耦多模态模型中的潜变量优化与利用

多模态大模型训练中存在"沉默视觉潜变量"问题:模型为走捷径会抑制视觉推理能力。最新研究提出推理阶段优化方案,通过"预热-强化"两阶段操作,在不修改模型参数的情况下唤醒被压抑的视觉潜能。该方法首先提升潜变量语义质量,再通过置信度递进奖励机制强制模型使用潜变量,在多个基准测试中性能显著提升(最高达14%),且计算效率优于传统方法。这一发现为提升多模态模型推理能力

文章图片
#人工智能#计算机视觉
transformer+强化学习 | 思路简单,发文快人一步!

Transformer与强化学习(RL)的融合正成为决策智能领域的研究热点。这一新范式通过Transformer强大的时序建模能力,有效解决了传统RL在长时序依赖、离线数据利用率、安全约束平衡等方面的难题。目前研究聚焦三大方向:离线RL的序列化建模、安全约束的动态适配以及情景RL的效率优化。两篇代表性论文展示了该方向的创新成果:《Constrained Decision Transformer》通

文章图片
#transformer#深度学习#人工智能 +3
清华团队揭 RLVR 真相:大模型推理能力早被基线锁死,强化学习只是表面优化!

本研究通过系统实验深入探讨了强化学习(RL)在提升大语言模型(LLMs)推理能力方面的实际效果。研究发现,尽管当前强化学习与验证器结合(RLVR)的方法被广泛采用,但其对模型推理能力的提升本质上并未超越基线模型自身的能力边界。实验结果表明,强化学习训练过程中产生的性能增益主要源于对特定任务模式的适应和优化,而非真正增强了模型的底层推理机制。研究团队通过多维度评估揭示了这一现象,并指出当前RL方法在

文章图片
#人工智能#语言模型#transformer +1
清华LeapLab重磅发现:强化学习正在“扼杀”大模型的推理潜力!

【摘要】清华大学团队研究发现,当前强化学习(RL)技术并未真正提升大语言模型的推理能力。通过pass@k评估方法(采样1024次),实验表明RL训练后的模型在数学、编程等任务中并未超越基础模型的能力边界,反而缩小了问题解决范围。研究揭示RL仅优化了已有知识的输出效率,却牺牲了基础模型原有的多元解决能力。相比之下,知识蒸馏能真正扩展模型能力。该成果对当前过度依赖RL提升模型性能的做法提出了重要警示,

文章图片
#人工智能#深度学习
北大新框架 | 用行动标记化串联视觉 - 语言 - 动作,AI 多模态模型再突破!

本文提出了视觉-语言-动作(Vision-Language-Action,VLA)模型的一致性框架,核心概念是“行动标记”(Action Token)。将视觉特征与语言指令转换为可执行的中间表示,并根据标记序列驱动动作执行。作者从八种标记形式入手:自然语言子任务、代码标记、物体可供性、轨迹表示、目标状态、潜在向量、原始控制命令与推理链,系统梳理了各类方法的发展脉络及性能表现。论文还讨论了数据规模、

文章图片
#人工智能#语言模型#transformer +2
    共 68 条
  • 1
  • 2
  • 3
  • 7
  • 请选择