logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

腾讯团队研发了一套专为机器人设计的视觉语言模型(VLM),通过独特的架构和训练方法,让机器人能更精准地看懂世界、进行空间推理并规划行动。

文章图片
#论文阅读#机器人#人工智能
【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

文章图片
#论文阅读
【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

文章图片
#论文阅读
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

本文提出了一种叫“扩散强制(Diffusion Forcing)”的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易“崩”掉的问题。

文章图片
#论文阅读#人工智能
【论文阅读】TwinBrainVLA:通过非对称MoT释放通用VLMs在具身任务中的潜力

为了解决机器人学动作时把“脑子”学傻了的问题,作者给模型造了两个“脑半球”:一个冻住不动专门负责看和理解(左脑),一个专门负责动手(右脑),让右脑随时向左脑“抄作业”,从而既能动又能懂。

文章图片
#论文阅读#人工智能
【论文阅读】DSRL:Steering Your Diffusion Policy with Latent Space Reinforcement Learning

这篇论文提出了一种叫DSRL的方法,它不修改Diffusion Policy 的模型参数,而是通过 RL 算法去寻找一个“完美的初始噪声”,利用这个噪声来“诱导”预训练好的策略输出更好的动作,从而用极少的样本量实现机器人策略的快速提升。

文章图片
#论文阅读#人工智能
【论文阅读】World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

本文提出了一个名为WAV的模型,它让机器人不再“走一步看一步”,而是先在脑海里“想象”未来的多种可能,评估哪个更好,再决定怎么动,从而解决了长程任务中容易失败的问题。

文章图片
#论文阅读#人工智能
【论文阅读】StableWorld: Towards Stable and Consistent Long Interactive Video Generation

本文提出了一种名为StableWorld的方法,通过智能地“扔掉”那些开始变模糊或变形的历史画面,只保留清晰的画面作为参考,从而让AI生成的长视频在长时间互动中保持稳定,不再“崩坏”。

#论文阅读#人工智能#视频生成
【论文阅读】StableWorld: Towards Stable and Consistent Long Interactive Video Generation

本文提出了一种名为StableWorld的方法,通过智能地“扔掉”那些开始变模糊或变形的历史画面,只保留清晰的画面作为参考,从而让AI生成的长视频在长时间互动中保持稳定,不再“崩坏”。

#论文阅读#人工智能#视频生成
【论文阅读】LingBot-World:推进开源世界模型发展

本文提出了一种名为LingBot-World的开源世界模拟器,它能通过文本和动作指令生成高保真、长时程且可交互的虚拟环境视频。

#论文阅读#人工智能#视频生成
    共 121 条
  • 1
  • 2
  • 3
  • 13
  • 请选择