
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
以往的自由空间预测(Free-Space Prediction)往往将整片非障碍区域都视为可行驶区域,但在真实驾驶中,车辆只会沿着特定的可导航通道(Driving Corridors)行驶。学生模型仅输入多视角图像,并在鸟瞰图(BEV)与三维占据特征空间中进行多阶段特征蒸馏,从教师模型中学习高质量的空间表示,实现轻量级且高精度的三维环境理。研究团队利用真实Robotaxi的脱离数据进行了验证。结果
谷歌在 2023 年推出 RT-2,作为里程碑式的 VLA 模型,统一视觉、语言和动作标记,将机器人控制视为自回归序列预测任务,使用离散余弦变换(DCT)压缩和字节对编码(BPE)离散化动作,使新对象处理性能提高 63%。ORION 结合多种组件,实现视觉问答和轨迹规划。双系统架构:以 NVIDIA 的 Groot N1(2025)为例,结合快速扩散策略(系统 1,10ms 延迟用于低级控制)和基
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:茶话人生001添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、
我们提出了一种名为PlanarGS的新方法,将平面和多视图深度先验融入3D高斯 splatting(3DGS)中,解决了室内场景中常见的大尺寸无纹理平面重建不准确的问题。:用VGGT替代多视图基础模型,用YoloWorld和SAM替代视觉语言基础模型,并在Replica数据集上增加提示词,对重建结果影响极小,表明PlanarGS的语言提示平面先验(LP3)管道和先验监督具有鲁棒性,基础模型的改进可
通过集成这些模块,我们的框架在保持实时吞吐量的同时,在 ScanNet200上相比近期的 ESAM实现了 2.8 AP 的提升。与此类似,我们将框架分解为用于实例关联的长期记忆和用于实例更新的短期记忆,由三个轻量级但协同的模块实现:1)长期记忆(LTM),可在长时间内匹配实例标识,实现长时间遮挡后的恢复。3)空间一致性学习(SCL)包括推理时的基于学习的掩码集成和训练时的实例一致性掩码监督,分别抵
比起大语言模型,自动驾驶基座模型的研发更复杂、更有挑战”,刘博士表示自动驾驶模型的训练数据远不止单模态的文本数据,还包括摄像头信息、导航信息等关于物理世界的多模态数据。diffusion优点,不仅生成自车轨迹,也生成他车轨迹,提升交互博弈能力,可以根据外部条件输入,改变结果,用户直接与模型对话,开慢点,赶时间,开快点diffusion,慢,效率低:基于常微分的ode采样,大幅加速diffsusio
Bowen Wen(温伯文)是英伟达研究院的高级科学家。他的研究领域包括机器人感知和计算机视觉。近期他专注于大型三维视觉感知和学习基础模型,以促进机器人技术或具身智能的发展。他主导的项目曾在计算机视觉和机器人两大领域的顶会(CVPR 2025, RSS 2022)都获得过最佳论文奖提名。在攻读博士期间,他曾在Google[X]、Meta Reality Labs、Amazon Lab 126和商汤
在每块渲染任务中,提出视角相关高斯迁移策略:并行搜索所有GPU上各LoD层级的相交体素,预测对应高斯属性。设计渐进式RGB-深度-法线联合训练方案,通过多视角约束与深度先验的协同优化,显著提升几何一致性。CityGS-X在RGB渲染最优的情况下,深度图也最准确,具有更少的浮点以及地面的空洞。西工大的研究团队认为,这些问题的根源在于其非结构化设计本质与并行化机制的缺失。,星球内汇总了众多3D视觉实战
这不仅在理论上保证了对保留知识的“零干扰”,还简化了优化目标,避免了复杂的权重调整。论文指出现有的"定位-编辑" (locate-then-edit) 范式在更新 LLM 知识时,引入的扰动会不可避免地破坏模型中原有的、需要保留的知识,尤其在连续编辑场景下问题更严重,导致遗忘和模型崩溃。SAM 2 是对开创性的 SAM 模型一次非常成功的演进,作为一个统一图像和视频分割的基础模型,并且伴随全面的开
未来可在多智能体协作、端到端学习、自适应安全屏障、迁移学习增强等方向深入探索,总之,NavRL 通过创新的状态表示、安全屏障机制和高效训练方法,为无人机在动态环境中的安全飞行提供了有效解决方案,有望推动无人机技术进步和应用拓展。NavRL采用课程学习训练控制策略,如图3所示,随动态障碍物增多,无课程学习的导航成功率大幅下降,有课程学习的下降较缓,如环境动态障碍物为100个时,有课程学习的成功率达







