miss9785 个人主页

@qq_50213874

miss9785

2022-09-27 10:01:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

NeurIPS 2025 spotlight Autonomous Driving VLA World Model FSDrive

【摘要】阿里巴巴高德与西安交通大学联合提出自动驾驶新范式FutureSightDrive，通过"时空思维链"技术让AI直接生成未来场景的视觉预测图（含车道线、车辆位置等时空信息），实现端到端视觉推理。该方法突破传统"图像→文字→决策"的局限，以0.3%的低成本解锁视觉语言模型的图像生成能力，在nuScenes数据集上轨迹规划误差降低35%，碰撞率下降40%，

#人工智能 #自动驾驶 #计算机视觉 +2

NeurIPS 2025 spotlight 自动驾驶最新VLA+世界模型 FSDrive

阿里高德与西安交大联合研发的FutureSightDrive系统，创新性地提出"时空思维链"(Spatio-Temporal CoT)技术，突破传统自动驾驶模型依赖文本推理的局限。该系统让AI直接在视觉层面模拟未来路况，通过"骨架-主体-细节"的渐进式方式生成预测图像，实现更精准的路径规划。实验数据显示，该方法使碰撞风险降低31%，在nuScenes等测试基

#人工智能 #自动驾驶 #深度学习 +3

自动驾驶迈向视觉推理｜统一视觉生成与理解的VLM

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-tempora

#自动驾驶 #人工智能 #计算机视觉

开源自动驾驶VLM/VLA！基于任意大模型的视觉推理

#自动驾驶 #人工智能 #计算机视觉 +2

可视化地思考：FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

#论文阅读 #深度学习 #人工智能 +3

开源自动驾驶VLM/VLA！基于任意大模型的视觉推理

#自动驾驶 #人工智能 #计算机视觉 +2

开源自驾大模型！扩展多模态大模型进行视觉生成

#自动驾驶 #人工智能 #计算机视觉 +1

视频单目标跟踪研究

由于对视频单目标跟踪并不是很熟悉，所以首先得对该领域有个大致的了解。视频目标跟踪是计算机视觉领域重要的基础性研究问题之一，是指在视频序列第一帧指定目标后，在后续帧持续跟踪目标，即利用边界框（通常用矩形框表示）标定目标，实现目标的定位与尺度估计（目标跟踪问题通常分为单目标跟踪和多目标跟踪，这里主要关注单目标跟踪问题）。视觉跟踪技术是计算机视觉领域（人工智能分支）的一个重要课题，有着重要的研究意义；

#目标跟踪 #人工智能 #计算机视觉

到底了