
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3) 模型架构层面,采用

摘要:HDMI(人形交互模仿)是一种从人类视频中学习全身控制的新框架。该研究解决了人形机器人-物体交互(HOI)中的两大挑战:数据稀缺和强化学习训练难题。方法分为三个阶段:从RGB视频提取运动轨迹、使用强化学习训练协同跟踪策略、直接部署执行。关键技术包括:统一物体表示、残差动作空间和交互奖励机制。相比传统方法,HDMI无需任务特定奖励设计,能处理不同物体类型和交互场景,实现更自然的搬运等复杂任务。

摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过

本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优

经典算法研究系列:八、再谈启发式搜索算法作者:July 二零一一年二月十日本文参考:I、 维基百科、II、 人工智能-09 启发式搜索、III、本BLOG内,经典算法研究系列:一、A*搜索算法----------------------------引言:A*搜索算法,作为经典算法研究系列的开篇文章,之前已在本BLOG内有所阐述。但要真正理解A*搜索算法,还是得先从启发式搜索算法谈起。毕竟,A
数学建模十大算法漫谈作者:July 二零一一年一月二十九日本文参考:I、 细数二十世纪最伟大的十大算法 译者:JulyII、 本BLOG内 经典算法研究系列III、维基百科博主说明:1、此数学建模十大算法依据网上的一份榜单而写,本文对此十大算法作一一简单介绍。这只是一份榜单而已,数学建模中还有很多的算法,未一一囊括。欢迎读者提供更多的好的算法。2、此份榜单,只是初步阐述了此数学建模十大算法,日
前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。

下半年以来,我全力推动我司大模型项目团队的组建,我虽兼管整个项目团队,但为了并行多个项目,最终分成了三个项目组,每个项目都有一个项目负责人,分别为霍哥、阿荀、朝阳,有何问题 欢迎随时留言评论,thanks了解几种外推方案做了什么然后再顺着苏剑林文章的思路来看为什么这样做但总觉得不够深刻moe我有了解过GLaM,Mistral那边的没了解过打算了解下,估计也大差不差。

本文解析了ASAP开源代码框架,这是一个专注于人形机器人敏捷运动技能学习的平台。核心内容包括:1) 算法层实现PPO、DAgger等强化学习算法,支持增量学习等创新模块;2) 环境层提供运动控制和任务跟踪等场景;3) 模拟器层对接IsaacGym等多物理引擎。文章详细剖析了PPO训练流程、广义优势估计计算等关键技术实现,并介绍了双策略机制和参考策略加载等创新设计。该框架采用模块化架构,支持从仿真到

AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实








