v_JULY_v 个人主页

@v_JULY_v

v_JULY_v

2022-07-29 15:20:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

结构之法算法之道blog博文集锦第6、第7期CHM文件0积分下载「07.30」

结构之法算法之道blog博文集锦第6、7期CHM文件0积分下载第6期CHM文件新春回馈读者，免积分下载本blog最新博文集锦第6期CHM文件(包含前五期的全部内容)：http://download.csdn.net/detail/v_july_v/4020172。打开如下图所示（希望对你有所帮助）：文件在不侵犯本人版权相关利益的前提下（转载或引用必须注明出处，严禁用于任何商业用途）

#算法

GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

摘要：GR-RL提出了一种结合视觉语言动作模型(VLA)与强化学习(RL)的新方法，以解决机器人精细操作中的两大挑战：毫米级精确控制和长时序任务鲁棒性。该方法通过三阶段训练流程：1)利用离线RL筛选优质人类示范数据；2)采用镜像对称性进行数据增强；3)通过在线RL在潜在空间进行结构化探索优化。实验表明，这种混合训练范式显著提升了如穿鞋带等高精度灵巧操作任务的性能，解决了传统VLA策略在训练-部署不

教你从头到尾利用DL学梵高作画：GTX 1070 cuda 8.0 tensorflow gpu版

教你从头到尾利用DL学梵高作画作者：七月在线开发/市场团队三人，骁哲、李伟、July配置：GTX 1070 cuda 8.0 Ubuntu 14.04 cudnn 5.1 tensorflow gpu时间：二零一六年九月二十五日一、前言 12年本博客推出SVM三层境界，July开始学习接触ML。14年July团队开始做机器学习线下班的时候，July则跟着讲师一起学习更多ML，因此也写了一系列

Exbody 2——富有表现力的人形全身控制：Teacher–Student两阶段训练方式，基于CVAE做连续运动合成

UCSD团队开发的ExBody2是一种先进的人形机器人全身控制框架，通过两阶段教师-学生训练策略实现高精度动作模仿。该系统采用特权信息训练教师策略后，将其蒸馏为学生策略用于真实部署。创新性地使用了局部关键点跟踪策略和基于CVAE的运动合成技术，解决了全局跟踪误差累积和连续运动生成问题。实验表明，ExBody2在Unitree G1/H1平台上实现了优于基线方法的上半身/下半身协调跟踪表现。该系统克

一文通透目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、DETR(首发于18年，修订于25年)

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD前言之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测，包括R-CNN、Fast R-CNN、Faster R-CNN，但一直没有比较好的机会深入（但当你对目标检测有个基本的了解之后，再看这些课程你会收益很大）。但目标检测这个领域实在是太火了，经常会看到一些写的不...

#目标检测

强化学习极简入门：通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

Q-chunking——带有动作分块的强化学习：基于人类演示，进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法，通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略，预测并执行未来h步动作，利用时序差分训练评估器进行无偏的n步价值回传。研究显示，这种方法能加速价值传播、保持无偏估计，同时通过行为约束利用离线数据中的时序连贯动作序列，有效缓解探索难题。相比分层RL，Q-chunking简化了优化过程，在保持探索优势的同时提升了样本效率。相关代码和论文已在

VIRAL——仿真中训练但现实中视觉驱动(解决loco-mani所需训练数据大的难题)：先Sim中训练教师策略，后蒸馏出基于视觉的学生策略

摘要：本文介绍了CMU LeCAR-Lab提出的视觉驱动仿人机器人系统VIRAL，该系统通过教师-学生框架实现行走-操作一体化任务。教师策略利用特权状态信息训练RL模型，输出WBC控制指令；学生策略则通过大规模视觉蒸馏，仅基于RGB图像和本体感知模仿教师行为。关键技术包括：增量动作空间设计、WBC作为API层、参考状态初始化，以及仿真环境的高度随机化。实验表明，该系统无需微调即可零样本迁移到Uni

ResMimic——类似预训练-微调模式的人形行走-操作：先预训练一个通用运动跟踪策略，后针对特定任务做修正(非盲态部署时依赖动捕)

摘要：ResMimic提出了一种基于残差学习的人形机器人全身行走-操作框架，通过解耦通用运动跟踪（GMT）策略与任务特定修正，实现高效精确的控制。GMT策略在大规模人类动作数据上预训练，提供运动先验；残差策略则针对物体交互进行轻量级调整。相比现有方法依赖任务特定设计或有限全身交互，ResMimic在统一框架下支持多样化接触与动态操作，减少数据需求与奖励工程。相关研究背景涵盖人形控制、模仿学习及残差

一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM：用于人形VLA GR00T N1和N1.5中

本文摘要：《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型，探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开：1) 数据策略方面，Eagle2构建180+数据源池，采用"多样性优先"原则，通过数据收集、过滤、选择和增强四步优化；2) 训练方法上，创新性提出三阶段训练策略，并设计平衡感知的贪心背包算法提升训练效率；3) 模型架构层面，采用

共 408 条

请选择