
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
腾讯团队研发了一套专为机器人设计的视觉语言模型(VLM),通过独特的架构和训练方法,让机器人能更精准地看懂世界、进行空间推理并规划行动。

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

本文提出了一种叫“扩散强制(Diffusion Forcing)”的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易“崩”掉的问题。

为了解决机器人学动作时把“脑子”学傻了的问题,作者给模型造了两个“脑半球”:一个冻住不动专门负责看和理解(左脑),一个专门负责动手(右脑),让右脑随时向左脑“抄作业”,从而既能动又能懂。

这篇论文提出了一种叫DSRL的方法,它不修改Diffusion Policy 的模型参数,而是通过 RL 算法去寻找一个“完美的初始噪声”,利用这个噪声来“诱导”预训练好的策略输出更好的动作,从而用极少的样本量实现机器人策略的快速提升。

本文提出了一个名为WAV的模型,它让机器人不再“走一步看一步”,而是先在脑海里“想象”未来的多种可能,评估哪个更好,再决定怎么动,从而解决了长程任务中容易失败的问题。

本文提出了一种名为StableWorld的方法,通过智能地“扔掉”那些开始变模糊或变形的历史画面,只保留清晰的画面作为参考,从而让AI生成的长视频在长时间互动中保持稳定,不再“崩坏”。
本文提出了一种名为StableWorld的方法,通过智能地“扔掉”那些开始变模糊或变形的历史画面,只保留清晰的画面作为参考,从而让AI生成的长视频在长时间互动中保持稳定,不再“崩坏”。
本文提出了一种名为LingBot-World的开源世界模拟器,它能通过文本和动作指令生成高保真、长时程且可交互的虚拟环境视频。







