
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:DreamZero提出了一种基于视频扩散模型的世界动作模型(WAM),通过预测未来状态和行为实现实时闭环控制。相比传统视觉语言模型(VLA),WAM利用14B参数的自回归视频扩散模型,以7Hz频率执行控制任务。关键技术包括:1)采用自回归架构和KV缓存提高推理速度;2)提出DreamZero-Flash方法,通过噪声解耦训练使模型能在噪声视觉环境下预测准确动作;3)避免双向模型固有的模态对齐
NVIDIA推出Isaac GR00T(Generalist Robot 00 Technology)基座模型,作为通才具身智能体研究的核心平台。该项目隶属于GEAR(Generalist Embodied Agent Research)计划,旨在开发适用于通用机器人的基础模型。开发者可通过NVIDIA官方渠道获取项目代码和技术文档,推动机器人通用智能研究的发展。该模型代表了NVIDIA在具身智能
NVIDIA推出Isaac GR00T(Generalist Robot 00 Technology)基座模型,作为通才具身智能体研究的核心平台。该项目隶属于GEAR(Generalist Embodied Agent Research)计划,旨在开发适用于通用机器人的基础模型。开发者可通过NVIDIA官方渠道获取项目代码和技术文档,推动机器人通用智能研究的发展。该模型代表了NVIDIA在具身智能
NVIDIA推出Isaac GR00T(Generalist Robot 00 Technology)基座模型,作为通才具身智能体研究的核心平台。该项目隶属于GEAR(Generalist Embodied Agent Research)计划,旨在开发适用于通用机器人的基础模型。开发者可通过NVIDIA官方渠道获取项目代码和技术文档,推动机器人通用智能研究的发展。该模型代表了NVIDIA在具身智能
摘要:FLARE框架通过流匹配扩散模型生成预测动作,并创新性地使用可学习未来标记作为桥梁,将生成的动作与视觉语言嵌入生成的未来标记对齐,显著降低了计算量。该方法不直接使用VLM,而是通过视觉/语言backbone编码后,利用Q-former压缩信息到预设空间,再通过DiT去噪生成动作。实验验证了未来标记对齐的有效性,并展示了少样本训练的潜力。核心改进在于通过未来标记实现高效对齐,减少计算开销。
摘要:GR00TN1是一种创新的通用人形机器人基础模型,采用双系统架构设计。系统2(视觉语言模块)基于NVIDIA Eagle-2VLM模型处理环境理解,系统1(动作生成模块)采用扩散变压器实时生成120Hz的闭环电机动作。模型创新性地使用中间层LLM嵌入提升性能,并分层整合潜在动作数据、合成数据和真实机器人数据。实验验证了该架构在异构数据处理和实时动作生成方面的优势,为通用人形机器人提供了开放的







