
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: Jitendra Malik提出的"导航是否接近完成"引发了对AI导航技术发展矛盾的讨论:结构化场景中导航已较成熟,但动态复杂环境仍面临挑战。最新研究显示大模型在空间推理上与人类差距显著。NavDP(Navigation Diffusion Policy)通过扩散策略网络实现跨场景通用导航,其核心架构采用双头设计(轨迹生成与评估),结合扩散过程和多模态融合,在10步内完

WoW的核心是SOPHIA(Self-Optimizing Predictive Hallucination Improving Agent,自优化预测幻觉改进智能体)范式。这是一个闭环自优化框架,通过"预测-评估-优化"的迭代循环提升物理推理能力。范式代表模型核心思想物理理解闭环优化Diffusion噪声→图像的逆过程统计模式无JEPA预测latent表征抽象特征无SOPHIAWoW预测+评估+

摘要 robot_lab是一个基于IsaacLab的机器人强化学习扩展库,提供独立开发环境。核心功能包括: 模块化架构: 支持多种机器人类型(四足/轮式/人形) 包含完整的MDP组件(奖励函数、命令生成、观测空间等) 提供课程学习机制 主要特性: 内置Unitree和FFTAI系列机器人配置 集成AMP工具和RSL RL框架 支持实时控制演示和模型导出 优势: 独立于IsaacLab核心代码库开发

摘要: 视觉语言导航(VLN)要求智能体根据自然语言指令在三维环境中自主导航,是多模态智能的重要挑战。2025年IEEE TPAMI论文《NavCoT》提出创新性"导航思维链"方法,通过三步解耦推理(未来想象→视觉过滤→动作预测)提升大语言模型的导航能力。该方法将视觉信息文本化,让LLM先想象目标场景再匹配观测视图,最后决策动作,解决了传统方法存在的领域差距和黑箱决策问题。实验

OpenAI的o1模型通过强化推理阶段算力提升逻辑能力,融合了蒙特卡洛树搜索(MCTS)、扩散模型和强化学习等技术。微软开源的rStar项目展示了MCTS在小语言模型中的纯推理优化应用,通过五种思维路径(A1-A5)构建搜索树:步步推理(A1)、一步到位(A2)、子问题分解(A3)、重新回答(A4)和问题改写(A5)。该框架将人类思维模式转化为prompt模板,在推理时通过搜索算法动态选择最优路径

近年来,大模型与多模态感知系统(如具身智体)的集成带来突破性模型的开发,这些模型能够处理日益复杂的任务。然而,具有大模型的具身智能领域仍处于早期阶段,仍存在一些挑战。这些包括增强模型的可扩展性和泛化能力,提高处理复杂任务的能力,以及提高具身智体与其环境更有效交互的能力。尽管该领域已经取得了重大进展,但目前关于 EMLM 的评论论文中仍然存在几个关键问题。首先,大多数现有评论主要关注自然语言处理中的

NuScenes是一个由Motional(前身为nuTonomy)发布的自动驾驶数据集,包含1000个驾驶场景,每个场景20秒,共140万个3D边界框标注和1.4亿个3D点云点。该数据集提供了多种传感器数据,包括6个摄像头、1个激光雷达和5个雷达的数据,以及详细的3D对象标注。利用这一丰富的数据集,我们可以生成高质量的训练样本,帮助多模态LLM理解交通场景、识别道路上的各类对象,并进行准确的场景描

摘要: 具身智能与自动驾驶共享相似的VLA(Vision-Language-Action)架构,均通过"感知-行动回路"实现环境交互。VLA技术源于机器人领域(如谷歌RT-2),通过多模态大模型将视觉理解映射为物理动作。自动驾驶因控制自由度较低(6DOF),其实现较机器人(35DOF)更简单。当前机器人VLA系统(如OpenVLA、Figure.AI的Helix)趋向快慢双系统

在机器人系统的开发中,数据传输是一个关键环节。ROS (Robot Operating System) 提供了一个灵活的框架来实现不同组件之间的通信。ROS Bridge 是一个强大的工具,它允许通过 WebSocket 和 HTTP 协议与 ROS 系统进行交互,尤其适用于 web 应用和移动设备的集成。这里面我们之前在《》文章中介绍了ROS bridge。我们这篇文章则进一步给出实战代码。

摘要: UCloud旗下Compshare GPU算力平台提供高性价比的4090/3090云算力,支持灵活计费与独立IP,注册即赠20元算力金。重点介绍了Qwen2-VL多模态大模型的微调技术,包括其架构特点(支持多语言、多图输入、开放域定位)、硬件配置建议(显存优化方案)及部署流程。提供了从环境配置、模型下载到推理使用的完整指南,涵盖Web UI和代码调用两种方式,并推荐使用Compshare平








