logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

可语音流畅交互的OneTwoVLA——推理数据微调π0:一个模型中完成原来双系统下的慢思考、快执行,且能自适应推理和自我纠错

OneTwoVLA:统一视觉-语言-行动模型实现自适应推理与执行协同 本文提出OneTwoVLA模型,通过统一架构解决现有系统在推理与执行分离时产生的问题。该模型创新性地实现了:1)自适应切换推理与执行模式的能力;2)支持视觉-语言数据的联合训练提升泛化性;3)开发可扩展的合成流程自动生成16,000个具身推理数据样本。相比传统双系统框架,OneTwoVLA在错误检测恢复、人机交互和视觉定位等方面

文章图片
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(LiDAR点云构建高度图)

如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享​但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。

文章图片
TA-VLA——将关节力矩反馈融入VLA中:无需外部力传感器,即可完成汽车充电器插入(且可多次自主尝试)

本文探讨了具身智能开发的前景,重点解读了TA-VLA模型在机械臂精密操作中的应用。研究表明,通过将关节力矩信号集成到视觉-语言-动作模型中,可显著提升机械臂对物理接触的感知能力。作者系统分析了力矩信号在模型中的三种集成维度(时序、位置、方式),发现将历史力矩编码为解码器的单一token效果最佳。实验证明,这种设计在10项任务中优于传统VLA方法,特别是在充电器插拔等精细操作任务中,能准确区分接触状

文章图片
FALCON——力自适应RL框架:上下双智能体(上肢操作策略、下肢行走策略)共享本体感觉和命令,然后联合训练

《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率

文章图片
NavA3——双VLM架构下的先“推理解析”后“定位导航”:理解任意指令,导航至任意地点,查找任意目标

本文提出NavA3分层框架,通过全局和局部策略解决具身导航任务中的高层次指令理解问题。全局策略利用Reasoning-VLM解析指令并推断目标物体及其可能位置;局部策略采用NaviAfford模型在目标区域进行精确物体定位。该系统基于三维场景重建和语义标注,支持复杂空间关系理解,在长时序导航任务中展现出卓越性能。实验表明NavA3能有效处理"我想要一杯咖啡"等自然指令,实现精准

文章图片
LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)

LeVERB是首个基于视觉-语言潜在动作的人形机器人全身控制系统,由加州伯克利等机构联合研发。该系统采用分层架构:高级视觉-语言策略(系统2)解析多模态输入并生成潜在动作计划;低级反应式控制器(系统1)以50Hz频率执行全身动作。创新点包括:1)通过合成数据流程生成17.1小时真实感运动数据;2)残差条件变分自编码器实现语义对齐;3)判别器消除模态差异。实验表明LeVERB能完成"走到桌

文章图片
Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在

文章图片
一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)

本文介绍了视觉Transformer(ViT)和Swin Transformer的发展历程及其在计算机视觉领域的应用。ViT通过将图像分割为16x16的块并作为Transformer输入,成功挑战了CNN在视觉领域的统治地位。文章详细解析了ViT的架构(Embedding层+Transformer Encoder+MLP Head)和与CNN的差异。随后介绍了Swin Transformer,它通

文章图片
图像生成的奠基与起源:从AE、VAE、VQ-VAE到扩散模型DDPM(含加噪、去噪全过程)、DDIM(含U-Net的简介)

2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。

文章图片
#AI作画
图像生成(AI绘画)的发展史:从DALLE、DALLE 2、DALLE 3到Stable Diffusion、SDXL、SD3(含ControlNet详解)

终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点确实非常非常多的朋友都看过我那篇SVM笔记,影响力巨大,但SVM笔记之后,也还是写了很多新的博客/文章滴,包括但不限于:xgboost、CNN、RNN、LSTM、BERT等今后基本每季度都有更新的计划,欢迎常来关于Stable Diffusion,可以先看下这

文章图片
    共 362 条
  • 1
  • 2
  • 3
  • 37
  • 请选择