logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

#python#人工智能
【论文自动阅读】VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coher

为解决现有视觉-语言-动作(VLA)模型在机器人操作中“空间不顺畅、时间不连贯”的问题,作者提出了VLA-4D模型。该模型通过将3D空间信息与1D时间信息融合成“4D感知”,一方面优化视觉表示(让模型更精准理解场景的时空变化),另一方面扩展动作表示(给传统空间动作参数增加时间控制,比如每个动作该执行多久);同时还扩展了机器人数据集,增加时间维度的标注用于模型微调,最终让机器人能完成更精细、时空更连

#人工智能#论文阅读#算法
【AniGS】论文阅读

微调阶段:用公共合成3D数据集的组合来渲染多视图图像。数据集包括2K2K,Thuman2.0,Thuman2.1和CustomHumans,以及Thwindom和RenderPeople等商业数据集。值得注意的是,没有使用人体模型进行训练。对于setting3:使用Blender获取GTvideo,并导出运动序列来驱动创建的人体模型。然后,我们在前景区域中计算photometric metrics

文章图片
#论文阅读#人工智能#3d +2
【论文自动阅读】Diffusion Reward: Learning Rewards via Conditional Video Diffusion

本文提出了一种名为“Diffusion Reward”的新框架,利用视频扩散模型从专家演示视频中学习奖励函数,从而指导强化学习智能体解决复杂的视觉操作任务。

#人工智能#深度学习
【论文自动阅读】Active Intelligence in Video Avatars via Closed-loop World Modeling

本文提出了ORCA框架,通过闭环的世界模型让视频虚拟人不仅能“动”,还能像人一样观察、思考、行动并反思,从而自主完成复杂的多步任务。

#人工智能#深度学习
【论文自动阅读】How Much 3D Do Video Foundation Models Encode?

本文通过设计一个轻量级的“探测器”模型,首次在不微调视频大模型的情况下,量化评估了它们内部到底蕴含了多少关于三维世界的理解能力。

#3d#人工智能#深度学习
【论文自动阅读】LoLA: Long Horizon Latent Action Learning for General Robot Manipulation

本文提出了一种名为LoLA的机器人控制框架,通过将视觉语言模型与机器人身体状态深度融合,让机器人能利用历史画面信息,更精准地完成复杂的长流程操作任务(如做披萨)。

#人工智能#深度学习
【论文自动阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

本文提出了一种名为 X-VLA 的通用机器人控制模型,利用“软提示(Soft Prompt)”技术,让一个模型能通过学习不同机器人的数据来掌握通用技能,并能快速适应从未见过的新机器人。

#深度学习#人工智能
【论文自动阅读】Prediction with Action: Visual Policy Learning via Joint Denoising Process

这是一份基于你上传的 NeurIPS 2024 论文《Prediction with Action: Visual Policy Learning via Joint Denoising Process (PAD)》的详细解读。快速了解部分1句话通俗总结本文干了什么事情本文提出了一种名为 PAD 的新框架,让机器人通过一个统一的“去噪”过程同时学会“预测未来画面”和“生成动作”,从而让机器人看懂物

#人工智能#深度学习
【论文自动阅读】Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

本文提出了一种名为“视频预测策略(VPP)”的新方法,通过利用视频扩散模型预测未来的视觉画面来隐式地学习机器人的动作策略,从而让机器人能更好地理解和执行复杂的物理操作任务。

#人工智能#深度学习
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择