logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

何恺明&谢赛宁署名:DeepMind新模型吊打SAM 3,视觉理解的游戏规则变了

论文基于Nano Banana Pro图像生成模型,通过极轻量指令微调得到统一模型Vision Banana,在不牺牲生成能力的前提下,于2D分割、3D深度估计、法向估计等任务上超越SAM 3、Depth Anything 3等专项专家模型,证明。想要兼顾图像生成与视觉理解,就得用多模型拼接,既冗余又难以协同。这不是一次简单的SOTA刷新,而是对视觉基础模型范式的重构:未来的视觉系统,或许不再需要

文章图片
自动驾驶原来从不看导航?丁文超团队揭开端到端模型导航理解的真相

这篇论文的价值,不仅在于刷榜了一个新SOTA,更在于它像一面镜子,照出了当前端到端自动驾驶领域的一个“盲区”——我们一直在堆算力、扩模型,却忽视了模型到底有没有真正理解那些最基础的输入信息。左侧的环岛场景和右侧的弯道场景中,传统的Transfuser模型(黄线)和加入了SNG的Transfuser(红线)均出现了不同程度的轨迹偏移,而SNG-VLA(蓝线)则凭借对导航信息的深刻理解,精准贴合了理想

文章图片
#自动驾驶
浙江大学:具身任务导向的时空推理模型,时序偏见误差降低至 0.1%!

EgoTSR未追逐生成架构与世界模型热点,而是以课程学习为骨架、推理增强型任务分解为核心、双维度无偏评估为标尺,走出了一条稳健务实的具身时空推理路径,用实验证明其核心矛盾并非模型规模,而是。面对逆序、乱序、动作回退等场景,会出现错误判断,无法支撑可靠决策。模型输入一对帧、任务指令,输出不仅是任务状态判断,还要输出完整的推理链:先描述空间关系、物体位置、机械臂状态,再一步步推导任务进度。模型侧重视觉

文章图片
CVPR‘26 Highlight|PixDLM:无人机推理分割首个万级基准+统一模型

从LISA、PixelLM将语言推理嵌入分割任务,到GeoPix、RemoteSAM面向遥感影像的空间建模,再到各类高分辨率适配方案,推理分割已从地面视角逐步走向高空、斜拍、大尺度变化的复杂场景。消融实验证明:完整启用四层对齐,相比无对齐,属性推理gIoU提升4.41%,场景推理提升6.56%,空间推理提升7.13%——对齐机制是性能跃升的核心。,正是瞄准这一空白给出的系统性答案。它没有跟风堆叠更

文章图片
#无人机
教程 | 在50系显卡上完整跑通宇树 G1 双足行走强化学习

▲地址:https://developer.nvidia.com/cuda-12-8-1-download-archive?链接:https://download.pytorch.org/whl/cu121/torchvisi on-0.18.1%2Bcu121-cp38-cp38-linux_x86_64.whl。链接:https://download.pytorch.org/whl/cu121

文章图片
对话πRL一作:RLinf流匹配 VLA 在线强化学习框架!π系列模型成功率提升至98%

这类模型能以极简方式建模多峰分布,生成高维、平滑的连续动作序列,在复杂操控任务中展现出显著潜力。强化学习可通过环境交互自主探索与迭代,有望降低对演示数据的依赖,并进一步提升模型性能上限。目前,针对流匹配VLA的强化学习方法仍较为缺乏,主流研究多集中于自回归架构的VLA(如OpenVLA)。其核心挑战在于:流匹配模型通过迭代去噪生成动作,难以直接计算动作的对数似然,而这正是PPO、GRPO等策略梯度

文章图片
#机器人
何恺明团队 2025 年度盘点:从结构到本质的深度学习再思考

进一步地,他们利用梯度优化机制与可插拔的损失函数(如重建损失或 CLIP 相似度)构建了一套无需生成模型训练的图像生成流程,在图像修复与文本引导编辑任务中展现出高度的多样性与真实感。在生成建模方面,研究团队尝试从“噪声、流动、表征”的角度重新审视现有扩散模型框架,提出更具稳定性与可解释性的生成机制,使得模型能够在保持高保真度的同时实现更高的计算效率。进一步分析发现,这些模型学习到的并非简单的记忆特

#深度学习#人工智能
纯视觉SOTA!华科&小米推出ReCogDrive:结合VLM和强化学习的端到端自动驾驶框架

给定自车状态例如,自车速度和自车加速度)、传感器输入和导航信息,自动驾驶任务旨在预测未来几秒内平滑且无碰撞的轨迹。传统的端到端驾驶算法表述为:其中,为未来路径点和航向的序列。尽管一些方法已经展现出很强的有效性,但是其黑盒性质阻碍了模型的可解释性,并且它们往往无法泛化到现实世界驾驶场景中罕见的极端情况。最新的工作利用了视觉语言模型的丰富世界知识和强大因果推理能力来实现自动驾驶。VLMs以文本形式输出

#汽车
顶刊收录|IntNet:基于通信驱动的多智能体强化学习框架,显著提高智驾安全性

©️【深蓝AI】编译该成果已被IEEE RAL收录论文题目:IntNet: A Communication-Driven Multi-Agent Reinforcement Learning Framework for Cooperative Autonomous Driving论文作者:Leandro Parada; Kevin Yu; Panagiotis Angeloudis论文地址:htt

#自动驾驶#汽车#安全
聊聊强化学习在无人机中的前沿应用

其中,最让人印象深刻的莫过于苏黎世大学Robotics and Perception Group发表在《Nature》上的工作"Champion-level Drone Racing using Deep Reinforcement Learning",通过强化学习算法训练无人机控制策略,在无人机竞速比赛中首次打败了人类世界冠军,比最快的人类冠军快约0.49秒,比最慢的人类冠军快约3.70秒,比赛

文章图片
#无人机
    共 443 条
  • 1
  • 2
  • 3
  • 45
  • 请选择