logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

已开源!CMU提出NavRL :基于强化学习的无人机自主导航和动态避障新方案

©️【深蓝AI】编译本文由paper一作——Zhefan Xu授权【深蓝AI】编译发布!论文题目:论文作者:近年来,强化学习(RL)在无人机控制领域展现出巨大潜力,为解决上述问题提供了新思路。强化学习允许无人机通过经验学习决策能力,提供更好的适应性和性能。然而,将强化学习应用于实际无人机导航仍面临三大挑战:1. 模拟到现实的迁移问题:强化学习需要在模拟环境中训练无人机,但模拟与现实世界之间存在感知

#无人机
Github 2万star的超级明星项目,只为解决这件事……(ICLR 2026)

右图则揭示了惊人的成果:LeRobot社区收集的轨迹数量在短短数月内便超越了谷歌的Open-X和RT1等大型数据集的总和,展现了去中心化社区的强大力量。数据显示,基于模仿学习的ACT策略因其高效易用,在社区中的模型上传和下载量上均占据主导地位,而更新的VLA模型(如SmolVLA)也呈现出快速增长的趋势,表明LeRobot能够有效加速新算法的普及与迭代。LeRobot的出现,提供了一个垂直整合式的

文章图片
#github
实测:VLA用扩散模型比自回归快100倍!

扩展规模VLA模型在不同硬件平台上的推理性能对比。扩散与自回归VLA性能对比:在动作块大小(左图)和自由度(右图)增加时,经典自回归模型(蓝色)的延迟呈指数级增长,而基于扩散的模型(绿色/橙色)则保持近乎恒定的低延迟。基于VLA-Perf的分析模型,研究团队对π₀这一代表性的VLA模型在不同硬件上的性能进行了预测,并给出了一系列关于模型缩放、长下文推理等关键问题的洞见。将所有模型组件的延迟和数据在

文章图片
实测:VLA用扩散模型比自回归快100倍!

扩展规模VLA模型在不同硬件平台上的推理性能对比。扩散与自回归VLA性能对比:在动作块大小(左图)和自由度(右图)增加时,经典自回归模型(蓝色)的延迟呈指数级增长,而基于扩散的模型(绿色/橙色)则保持近乎恒定的低延迟。基于VLA-Perf的分析模型,研究团队对π₀这一代表性的VLA模型在不同硬件上的性能进行了预测,并给出了一系列关于模型缩放、长下文推理等关键问题的洞见。将所有模型组件的延迟和数据在

文章图片
VLN范式大洗牌|10篇力作,拆解2026年VLN四大核心突破方向

DACo(右侧)通过明确的"全局指挥官+局部执行官"角色划分,在简化系统设计的同时,实现了更稳健的长时序导航推理,在R2R、REVERIE、R4R三个数据集上取得了4.9%到6.5%的绝对成功率提升。这使得模型能够进行更长远的规划。可以预见的是,未来的VLN智能体,将是一个既能“仰望星空”(进行长远规划和想象),又能“脚踏实地”(在复杂环境中精确执行)的通用物理世界助手。在R2R、REVERIE和

文章图片
李飞飞团队6篇成果入选ICLR 2026,但我们更该关心那些“还没做到”的部分。。。

研究仅基于单一基准模型开展实验,未充分探索不同架构 VLMs 的空间推理表现,且未涉及复杂真实场景中动态物体的空间建模,对模型在更长视野下的推理稳定性也未深入验证。:目前的研究只是初步探索了部分具身相关诊断场景,消融实验的模型和数据范围有限,没尝试通过微调优化模型的具身世界建模能力,也没将视频生成模型纳入评估范畴。空间认知是具身智能与环境交互的核心能力,本方向聚焦于突破现有模型的空间理解瓶颈,通过

文章图片
李飞飞团队6篇成果入选ICLR 2026,但我们更该关心那些“还没做到”的部分。。。

研究仅基于单一基准模型开展实验,未充分探索不同架构 VLMs 的空间推理表现,且未涉及复杂真实场景中动态物体的空间建模,对模型在更长视野下的推理稳定性也未深入验证。:目前的研究只是初步探索了部分具身相关诊断场景,消融实验的模型和数据范围有限,没尝试通过微调优化模型的具身世界建模能力,也没将视频生成模型纳入评估范畴。空间认知是具身智能与环境交互的核心能力,本方向聚焦于突破现有模型的空间理解瓶颈,通过

文章图片
AI Skills——AI时代的标准化魔法书

创新设计了分层加载逻辑:模型初始仅访问技能元数据,仅在主动调用时才加载完整指令与文件内容,既保证了能力的丰富性,又控制了资源消耗,为。,整合了人类工程师的故障判断经验,能够快速识别异响、渗漏等异常情况,并给出处理建议。这种生态的形成,将打破平台壁垒与行业边界,促进知识的高效流通,激发。也对行业提出了新的要求,如何保障技能的安全性、合规性,如何建立合理的价值分配机制,将成为行业发展的重要课题。当平台

文章图片
#人工智能
港科大沈劭劼团队|VG3S:不微调、不遗忘,即插即用实现高精度3D占用预测

这种设计的妙处在于:它不是简单平均,而是让模型自己学会"哪一层的几何信息对当前任务更有价值",从而在保留关键几何细节的同时,有效抑制冗余激活。左侧冻结的VFM编码器是"知识库",中间的HGFA(含GATF、TATR、LSFP三个模块)是"翻译官",右侧的高斯解码器和体素溅射是"执行者"。三者协同,让冰封在基础模型中的几何先验真正流动起来。VG3S的核心洞察是:不动VFM的权重,只训练一个即插即用的

文章图片
#3d#自动驾驶
DEKR 解构式关键点回归(一):算法思想与原理

前言CW前阵子玩了下人体姿态估计,用上了微软新鲜出炉的算法——DEKR: Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression。 这个工作挺大胆的,它采用直接回归关键点坐标的方法,在COCO和CrowdPose两个数据集上干掉了此前那些基于关键点热度图(heatmap)检测并组合的方法。DEKR的个性在于,它独立地

#计算机视觉#人工智能
    共 346 条
  • 1
  • 2
  • 3
  • 35
  • 请选择