logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NeurIPS 2025 | LeCun团队提出PEVA:面向具身智能的世界模型

让智能体学会“预测”能力的挑战在于动作与视觉的关系具有高度非线性(如同一手臂动作在不同环境中导致的视觉变化不同),且存在延迟效应(如行走几步后才看到新场景),需高效捕捉长距离依赖。时间注意力机制:通过跨历史帧的交叉注意力,让当前帧生成时关注过去多帧的 “干净” 特征(未加噪声的真实编码),建模动作的延迟视觉影响(如提前预测转身后续的场景变化)。,该数据集包含同步的第一视角视频与全身动作捕捉数据,覆

#人工智能
0.1秒极速重建!CVPR‘25开源Omni-Scene:以自车为中心的3D场景重建大模型

基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级

#3d
ICCV 2025 Oral | 告别「僵尸」3D数字人!清华、南洋理工等联手打造DPoser-X

DPoser-X作为一个即插即用的先验模块,可以在许多地方派上用场,为了方便大家的使用,作者在GitHub进行了非常详细的开源,每个下游任务的测试和训练代码都进行了整理,model_zoo全部开放到Huggingface上,欢迎大家使用与stars!DPoser-X在处理这类问题时,尤其是在有遮挡、侧脸等复杂情况下,表现出了惊人的鲁棒性。任务中,当身体的某些部分(如左腿)被遮挡时,DPoser-X

#3d
ICCV‘25开源 | 新一代自动驾驶标配视觉语言大模型?DriveBench全面揭示视觉语言大模型在退化图像下的「幻觉」问题!

DriveBench 的研究发现当前 VLMs 在视觉信息缺失或受损情况下仍能生成“合理”但缺乏视觉支撑的回答,暴露出数据偏差和评估指标的局限性。为提升 VLMs 在自动驾驶中的可信度,研究提出 Robust Agentic Utilization(RAU) 框架,利用 VLMs 的OoD感知能力,引导外部去噪模型增强感知稳健性。本次分享介绍 DriveBench,一个专为自动驾驶设计的视觉语言模

#自动驾驶#人工智能#机器学习
自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推理:首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。值得注意的是,CAR的自适应路由在MathQA数据集上尤其有效(如Llama3.1模型下70.2% vs. COD的59.1%,Qwen2.5模型

#人工智能#深度学习
刚入门结构光,如何快速搭建一套结构光3D相机?

目前主流结构光技术有:散斑结构光(机器人导航)、线结构光(视觉测量)、面结构光技术(机械臂抓取等快速测量场景)。我们推出了“精讯V2”设备,是一台面相科研级的高速、高精度、源码级开发的3d面结构光测量设备,能够自由DIY配置,并且与机械臂等结合,开发相应的应用。可以结合OpenCV部署各类AI应用,如6d姿态抓取等,结合我们工坊推出课程,可以完成大多数3d视觉领域的任务。更方便、高精度的单目标定/

#3d
MATLAB与OpenCV进行相机标定,谁的标定精度高?

最后需要说明的是:像素重投影误差并非相机标定精度评定的唯一评价标准,重投影误差小并不一定代表镜头的标定精度就高,它仅能代表该组样本的棋盘方格的拟合程度,对于未拍摄到棋盘方格约束的镜头区域,其像素畸变程度仍不确定,特别是边缘区域。2.将MATLAB检测的棋盘角点导入OpenCv 中,使用OpenCv对MATLAB检测棋盘角点进行相机标定,计算像素重投影误差均误差, 评定同样的检测角点精度情况下,Op

#matlab#opencv#开发语言 +1
SIGGRAPH‘25!Drag Your Gaussian: 首个Scene-leve! 3DGS拖拽编辑方法

传统的3D表示方式,比如网格、体素、点云等,虽然奠定了计算机图形的基础,但它们或过于笨重,或过于稀疏,很难兼顾高质量渲染与高效率操作。用户只需通过简单的控制点对和 3D掩码,即可实现高质量、可控、跨视角一致的3D几何编辑。相较于传统的文本驱动方法,DYG通过“控制点+3D掩码”的方式,结合隐式三平面表示与高斯场优化,使得用户可以实现更精细、更稳定的几何编辑。编辑效率的提升:当前的两阶段优化过程仍存

#3d
0.1秒极速重建!CVPR‘25开源Omni-Scene:以自车为中心的3D场景重建大模型

基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级

#3d
感知、规划、预测大一统!RoboTron-Nav实现具身导航成功率81%,创历史新高!

与自动驾驶不同,语言引导的视觉导航要求智能体根据自然语言指令在未见过的视觉环境中自主探索以定位目标对象,这带来了独特的挑战,包括在不熟悉的视觉环境中有效感知周围场景、规划实现目标的策略以及预测合适的导航动作。为了解决当前导航模型缺乏深度思考和任务规划的问题,论文开发了一种新方法,通过扩展导航数据集来包含EQA对,从而明确建模导航中的决策过程。:RoboTron-Nav在CHORES-S基准测试的O

    共 1038 条
  • 1
  • 2
  • 3
  • 104
  • 请选择