
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
教你从头到尾利用DL学梵高作画作者:七月在线开发/市场团队三人,骁哲、李伟、July配置:GTX 1070 cuda 8.0 Ubuntu 14.04 cudnn 5.1 tensorflow gpu时间:二零一六年九月二十五日一、前言 12年本博客推出SVM三层境界,July开始学习接触ML。14年July团队开始做机器学习线下班的时候,July则跟着讲师一起学习更多ML,因此也写了一系列
UCSD团队开发的ExBody2是一种先进的人形机器人全身控制框架,通过两阶段教师-学生训练策略实现高精度动作模仿。该系统采用特权信息训练教师策略后,将其蒸馏为学生策略用于真实部署。创新性地使用了局部关键点跟踪策略和基于CVAE的运动合成技术,解决了全局跟踪误差累积和连续运动生成问题。实验表明,ExBody2在Unitree G1/H1平台上实现了优于基线方法的上半身/下半身协调跟踪表现。该系统克

一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD前言之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不...

强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。

UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在

摘要:本文介绍了CMU LeCAR-Lab提出的视觉驱动仿人机器人系统VIRAL,该系统通过教师-学生框架实现行走-操作一体化任务。教师策略利用特权状态信息训练RL模型,输出WBC控制指令;学生策略则通过大规模视觉蒸馏,仅基于RGB图像和本体感知模仿教师行为。关键技术包括:增量动作空间设计、WBC作为API层、参考状态初始化,以及仿真环境的高度随机化。实验表明,该系统无需微调即可零样本迁移到Uni

摘要:ResMimic提出了一种基于残差学习的人形机器人全身行走-操作框架,通过解耦通用运动跟踪(GMT)策略与任务特定修正,实现高效精确的控制。GMT策略在大规模人类动作数据上预训练,提供运动先验;残差策略则针对物体交互进行轻量级调整。相比现有方法依赖任务特定设计或有限全身交互,ResMimic在统一框架下支持多样化接触与动态操作,减少数据需求与奖励工程。相关研究背景涵盖人形控制、模仿学习及残差

本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3) 模型架构层面,采用

摘要:HDMI(人形交互模仿)是一种从人类视频中学习全身控制的新框架。该研究解决了人形机器人-物体交互(HOI)中的两大挑战:数据稀缺和强化学习训练难题。方法分为三个阶段:从RGB视频提取运动轨迹、使用强化学习训练协同跟踪策略、直接部署执行。关键技术包括:统一物体表示、残差动作空间和交互奖励机制。相比传统方法,HDMI无需任务特定奖励设计,能处理不同物体类型和交互场景,实现更自然的搬运等复杂任务。

摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过








