李小星同志个人主页

@LI_XIAO_XING

李小星同志

2023-08-01 10:33:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

VID2WORLD: CRAFTING VIDEO DIFFUSION MODELSTO INTERACTIVE WORLD MODELS论文学习

术语定义核心作用世界模型（World Model）学习环境动态的内部模型，形式化为部分可观测马尔可夫决策过程（POMDP），目标是估计状态转移函数 pθ(ot+1∣o≤t,a≤t)预测未来观测，支撑智能体决策视频扩散模型（Video Diffusion Model）基于扩散过程的生成模型，通过逐步去噪生成高保真视频，训练数据为互联网无动作标签视频提供丰富的物理先验（如物体运动规律、场景一致

#学习

DPO,PPO,GRPO的学习

PPO在线互动式优化，模型和环境（或 RM）实时交互产生奖励，通过优势估计和裁剪机制，逐步调整策略，适合 “没有现成标注、需要模型主动探索” 的场景（如机器人自主学习、从零训练的对话模型）。DPO离线偏好式优化，直接用现成的 “好坏回答对” 训练，通过对比概率比值让模型对齐偏好，还天然绑定参考模型防止退化，适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景（如大模型对齐的量产阶段）

#学习 #人工智能 #深度学习

VGGT: Visual Geometry Grounded Transformer论文学习

DINO ViT patch tokens + 可学习的 camera token（每帧1个）+ 4 个 register token。（Alternating-Attention）：先帧内自注意力，再跨帧全局自注意力，循环 24 次。Tracking Head（CoTracker2）：用跟踪特征完成任意点到全部帧的匹配。Dense Head（DPT）：输出深度图、点云图、不确定性图、跟踪特征图。

#transformer #学习 #深度学习

EcoAgent: An Efficient Edge-Cloud Collaborative Multi-AgentFramework for Mobile Automation论文审查

AndroidWorld上的实验结果表明，EcoAgent有效地处理了复杂的移动任务，同时减少了MLLM的令牌消耗，从而降低了运营成本，并促进了边缘设备上的实际部署。可以看到，在plan agent提出了一个计划+每步计划的预期结果之后，假如操作结果一直符合预期的话，整个流程接下来都不需要云端模型了。只有出现了不符合预期的情况的时候，才会需要云端模型，把当前情况和他说一下，再让他修改一下计划。ap

#边缘计算

OpenVLA: An Open-Source Vision-Language-Action Model论文学习

VLA训练的时候要多几个epoch，不能像LLM一样1，2个就完事了。VLA意为：vision language action 模型，其中的v可以使用常规多模态模型的vision部分。使用的现成的数据集，但是做了修改。只要人为手动的数据集，使用的机器什么的都要统一，各种任务类型也要平均。Motion（移动）：同样的东西和背景看起来差不多，不过东西的位置不太一样。优点基本上就是：模型小，开源，直接用

#学习

Learning by Watching: Physical Imitation ofManipulation Skills from Human Videos论文学习

先通过 MUNIT 模型（无监督图像翻译）把人类演示视频逐帧转化为机器人视角的视频 —— 翻译后的视频可能有视觉伪影，缺少结构化关键信息，无法直接用于训练；接着用 Transporter 模型从翻译后的机器人视频中提取关键点轨迹（比如机器人末端、物体中心的运动轨迹）；最后用这些轨迹作为强化学习的训练目标，让机械臂的关键点轨迹与目标轨迹尽可能一致，从而学会操作技能。经过上述训练，我们就得到了能准确提

#学习 #人工智能

Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction论文学习

EgoMAN 项目的核心突破是“用结构化令牌打通推理与运动”：通过数据集提供 “语义 - 空间 - 运动” 的强关联监督，再通过 4 个轨迹令牌将抽象的视觉 - 语言推理转化为运动生成可直接利用的中间表示，最终实现 “意图明确、轨迹平滑、泛化性强” 的 3D 手部轨迹预测。该方法既解决了传统模型 “语义与运动脱节” 的问题，又克服了 VLA 系统 “运动生成低效” 的缺陷，为 embodied A

#学习

Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction论文学习

#学习

AC-DiT: Adaptive Coordination DiffusionTransformer for Mobile Manipulation

这篇论文提出了，是一款面向移动操作机器人的端到端控制框架，核心是解决移动底座与机械臂的协同控制难题，以及不同操作阶段的多模态感知适配问题。下面从。

DPO,PPO,GRPO的学习

#学习 #人工智能 #深度学习

共 17 条

请选择