
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
具身智能(Embodied Intelligence)是指通过物理体(如机器人或生物体)与环境进行互动而获得的智能。这种智能强调身体在认知过程中的重要性,认为智能不仅仅是大脑的功能,还包括身体的感知、运动和与环境的交互。具身智能的研究领域涉及机器人学、认知科学、神经科学等,重点在于如何通过身体的运动和感知来实现智能行为。而人形机器人与具身智能最近两年有效的结合到了一起,并以openloong为首,

本文详细介绍了为运行Isaac Sim和Isaac Lab仿真环境所做的Nvidia驱动及CUDA工具链安装配置过程。内容包括:1) 通过Ubuntu软件中心或命令行安装适配显卡的最新Nvidia驱动;2) 提供deb和runfile两种方式安装CUDA Toolkit的完整步骤;3) 说明cuDNN与CUDA版本的兼容性要求,并给出cuDNN安装方法。文章配有详细截图和命令行操作指南,帮助用户完

最近快到1024程序员节了,再给大家上点干活。Whisper是openai开源的一个语音转文字模型。也是现在识别效果最好的离线数据模型,但是我们发现我们在完成一些中英文或者专业术语对话的时候。这时候表现的效果就比较差了。而这一步就得用微调的方式来完成对这些特定词语进行修正了。这里最近受到优刻得的使用邀请,正好解决了我在大模型和自动驾驶行业对GPU的使用需求。UCloud云计算旗下的的GPU算力云平

摘要: Jitendra Malik提出的"导航是否接近完成"引发了对AI导航技术发展矛盾的讨论:结构化场景中导航已较成熟,但动态复杂环境仍面临挑战。最新研究显示大模型在空间推理上与人类差距显著。NavDP(Navigation Diffusion Policy)通过扩散策略网络实现跨场景通用导航,其核心架构采用双头设计(轨迹生成与评估),结合扩散过程和多模态融合,在10步内完

WoW的核心是SOPHIA(Self-Optimizing Predictive Hallucination Improving Agent,自优化预测幻觉改进智能体)范式。这是一个闭环自优化框架,通过"预测-评估-优化"的迭代循环提升物理推理能力。范式代表模型核心思想物理理解闭环优化Diffusion噪声→图像的逆过程统计模式无JEPA预测latent表征抽象特征无SOPHIAWoW预测+评估+

摘要 robot_lab是一个基于IsaacLab的机器人强化学习扩展库,提供独立开发环境。核心功能包括: 模块化架构: 支持多种机器人类型(四足/轮式/人形) 包含完整的MDP组件(奖励函数、命令生成、观测空间等) 提供课程学习机制 主要特性: 内置Unitree和FFTAI系列机器人配置 集成AMP工具和RSL RL框架 支持实时控制演示和模型导出 优势: 独立于IsaacLab核心代码库开发

摘要: 视觉语言导航(VLN)要求智能体根据自然语言指令在三维环境中自主导航,是多模态智能的重要挑战。2025年IEEE TPAMI论文《NavCoT》提出创新性"导航思维链"方法,通过三步解耦推理(未来想象→视觉过滤→动作预测)提升大语言模型的导航能力。该方法将视觉信息文本化,让LLM先想象目标场景再匹配观测视图,最后决策动作,解决了传统方法存在的领域差距和黑箱决策问题。实验

OpenAI的o1模型通过强化推理阶段算力提升逻辑能力,融合了蒙特卡洛树搜索(MCTS)、扩散模型和强化学习等技术。微软开源的rStar项目展示了MCTS在小语言模型中的纯推理优化应用,通过五种思维路径(A1-A5)构建搜索树:步步推理(A1)、一步到位(A2)、子问题分解(A3)、重新回答(A4)和问题改写(A5)。该框架将人类思维模式转化为prompt模板,在推理时通过搜索算法动态选择最优路径

近年来,大模型与多模态感知系统(如具身智体)的集成带来突破性模型的开发,这些模型能够处理日益复杂的任务。然而,具有大模型的具身智能领域仍处于早期阶段,仍存在一些挑战。这些包括增强模型的可扩展性和泛化能力,提高处理复杂任务的能力,以及提高具身智体与其环境更有效交互的能力。尽管该领域已经取得了重大进展,但目前关于 EMLM 的评论论文中仍然存在几个关键问题。首先,大多数现有评论主要关注自然语言处理中的

NuScenes是一个由Motional(前身为nuTonomy)发布的自动驾驶数据集,包含1000个驾驶场景,每个场景20秒,共140万个3D边界框标注和1.4亿个3D点云点。该数据集提供了多种传感器数据,包括6个摄像头、1个激光雷达和5个雷达的数据,以及详细的3D对象标注。利用这一丰富的数据集,我们可以生成高质量的训练样本,帮助多模态LLM理解交通场景、识别道路上的各类对象,并进行准确的场景描








