logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

新加坡国立大学最新研究:冻结Backbone,激活潜能:解耦多模态模型中的潜变量优化与利用

多模态大模型训练中存在"沉默视觉潜变量"问题:模型为走捷径会抑制视觉推理能力。最新研究提出推理阶段优化方案,通过"预热-强化"两阶段操作,在不修改模型参数的情况下唤醒被压抑的视觉潜能。该方法首先提升潜变量语义质量,再通过置信度递进奖励机制强制模型使用潜变量,在多个基准测试中性能显著提升(最高达14%),且计算效率优于传统方法。这一发现为提升多模态模型推理能力

文章图片
#人工智能#计算机视觉
transformer+强化学习 | 思路简单,发文快人一步!

Transformer与强化学习(RL)的融合正成为决策智能领域的研究热点。这一新范式通过Transformer强大的时序建模能力,有效解决了传统RL在长时序依赖、离线数据利用率、安全约束平衡等方面的难题。目前研究聚焦三大方向:离线RL的序列化建模、安全约束的动态适配以及情景RL的效率优化。两篇代表性论文展示了该方向的创新成果:《Constrained Decision Transformer》通

文章图片
#transformer#深度学习#人工智能 +3
清华团队揭 RLVR 真相:大模型推理能力早被基线锁死,强化学习只是表面优化!

本研究通过系统实验深入探讨了强化学习(RL)在提升大语言模型(LLMs)推理能力方面的实际效果。研究发现,尽管当前强化学习与验证器结合(RLVR)的方法被广泛采用,但其对模型推理能力的提升本质上并未超越基线模型自身的能力边界。实验结果表明,强化学习训练过程中产生的性能增益主要源于对特定任务模式的适应和优化,而非真正增强了模型的底层推理机制。研究团队通过多维度评估揭示了这一现象,并指出当前RL方法在

文章图片
#人工智能#语言模型#transformer +1
清华LeapLab重磅发现:强化学习正在“扼杀”大模型的推理潜力!

【摘要】清华大学团队研究发现,当前强化学习(RL)技术并未真正提升大语言模型的推理能力。通过pass@k评估方法(采样1024次),实验表明RL训练后的模型在数学、编程等任务中并未超越基础模型的能力边界,反而缩小了问题解决范围。研究揭示RL仅优化了已有知识的输出效率,却牺牲了基础模型原有的多元解决能力。相比之下,知识蒸馏能真正扩展模型能力。该成果对当前过度依赖RL提升模型性能的做法提出了重要警示,

文章图片
#人工智能#深度学习
北大新框架 | 用行动标记化串联视觉 - 语言 - 动作,AI 多模态模型再突破!

本文提出了视觉-语言-动作(Vision-Language-Action,VLA)模型的一致性框架,核心概念是“行动标记”(Action Token)。将视觉特征与语言指令转换为可执行的中间表示,并根据标记序列驱动动作执行。作者从八种标记形式入手:自然语言子任务、代码标记、物体可供性、轨迹表示、目标状态、潜在向量、原始控制命令与推理链,系统梳理了各类方法的发展脉络及性能表现。论文还讨论了数据规模、

文章图片
#人工智能#语言模型#transformer +2
NeurIPS 2025 | 华科大NAUTILUS:基于物理先验,让多模态大模型看穿深海迷雾!

摘要:论文提出NAUTILUS模型,用于解决水下图像颜色失真、细节模糊等问题。通过构建145万问答对的大规模水下多任务数据集NautData,并设计基于物理先验的视觉特征增强(VFE)模块,该模型能在特征层面逆向修复水下图像退化信息。实验表明,NAUTILUS在目标检测、分类等8项任务上性能显著提升,尤其在恶劣水下环境中表现出强鲁棒性。该研究为水下智能探索提供了新基准,其可解释的物理建模方法和即插

文章图片
#人工智能#机器学习#深度学习
多模态+CLIP | 视觉语言交互的终极形态?CLIP融合AIGC与持续学习,重塑多模态AI边界

多模态学习前沿:CLIP驱动的视觉-语言模型新进展 当前研究聚焦于增强多模态模型的语义对齐和持续学习能力。TokLIP创新性地提出离散到连续的标记器架构,通过语义化低层视觉特征,实现了多模态理解与生成的统一。C-CLIP则通过多模态低秩适应(LoRA)和对比知识巩固(CKC),解决了持续学习中的遗忘问题,同时保持零样本泛化能力。这些突破性进展显著提升了AI在开放世界中的适应能力,为自动驾驶、智能创

文章图片
#人工智能#机器学习#深度学习 +1
荣登NeurIPS!Agent规划 + 多模态大模型取得新突破,这波操作杀疯了!

多模态Agent研究前沿综述 当前研究聚焦于将多模态大模型与Agent规划能力结合,以突破单一模型的被动响应局限。最新成果如FusionAgent和LCVN框架展现了三大创新方向: 动态模型选择:通过强化学习实现样本级最优模型组合(如FusionAgent的ACT分数融合方法); 语言条件导航:华盛顿大学提出的LCVN任务结合扩散模型与自回归架构,实现开放环路的语言引导导航; 世界建模优化:引入扩

文章图片
#目标跟踪#人工智能#计算机视觉 +2
荣登NeurIPS!Agent规划 + 多模态大模型取得新突破,这波操作杀疯了!

多模态Agent研究前沿综述 当前研究聚焦于将多模态大模型与Agent规划能力结合,以突破单一模型的被动响应局限。最新成果如FusionAgent和LCVN框架展现了三大创新方向: 动态模型选择:通过强化学习实现样本级最优模型组合(如FusionAgent的ACT分数融合方法); 语言条件导航:华盛顿大学提出的LCVN任务结合扩散模型与自回归架构,实现开放环路的语言引导导航; 世界建模优化:引入扩

文章图片
#目标跟踪#人工智能#计算机视觉 +2
CVPR 26 爆款方向!多模态幻觉检测,POPE评测让VLM不再“瞎编“!

摘要:多模态大模型存在严重幻觉问题,如虚构物体或错误计数,影响高精度场景应用。当前研究聚焦三种检测方向:存在性、属性及推理链幻觉分析。两篇顶会论文提出创新方案:北京交大团队基于D-S理论开发单次前向传播的EUQ框架,实现内部冲突与信息缺失的显式量化;西北工大团队设计医疗VQA专用的V-Loop系统,通过视觉逻辑闭环验证事实准确性。研究强调需在真实噪声数据(非COCO等干净数据集)测试以验证泛化性。

文章图片
#人工智能#深度学习#机器学习
    共 63 条
  • 1
  • 2
  • 3
  • 7
  • 请选择