Meta:微缩沙箱赋能智能体训练
如何解决因机器学习任务验证耗时过长而导致无法对大模型智能体进行大规模在线强化学习训练的瓶颈?论文提出了 SandMLE 框架,通过多智能体生成微缩数据的合成环境,将执行速度提升 13 倍以上,首次实现了机器学习工程领域的轨迹级在线强化学习。

📖标题:Synthetic Sandbox for Training Machine Learning Engineering Agents
🌐来源:arXiv, 2604.04872v1
🛎️文章简介
🔸研究问题:如何解决因机器学习任务验证耗时过长而导致无法对大模型智能体进行大规模在线强化学习训练的瓶颈?
🔸主要贡献:论文提出了 SandMLE 框架,通过多智能体生成微缩数据的合成环境,将执行速度提升 13 倍以上,首次实现了机器学习工程领域的轨迹级在线强化学习。
📝重点思路
🔸提出多智能体协作流水线,包含数据策略师、开发者、运维工程师和技术作家四个角色,从少量种子任务中提取结构基因并生成多样化的合成任务。
🔸强制将每个合成任务的训练和测试数据规模限制在 50 至 200 个样本的微缩级别,在保留问题数学逻辑复杂性的同时大幅降低代码执行延迟。
🔸设计基于里程碑的稠密奖励函数,结合格式合规性、代码可执行性以及分层级的性能阈值(如铜牌、银牌、金牌),解决长程任务中的奖励稀疏问题。
🔸利用生成的微缩沙箱环境执行轨迹级的群组相对策略优化(GRPO),使模型能在合理的时间内完成数千次在线 rollout 更新以优化长程决策能力。
🔎分析总结
🔸实验显示 SandMLE 将单次代码执行的平均时间从真实任务的约 196 秒降低至 14 秒,加速比超过 13 倍,使得在线强化学习在计算上变得可行。
🔸在 MLE-bench-lite 基准测试中,经过 SandMLE 训练的模型在任意奖牌率上相比监督微调基线提升了 20.3% 至 66.9%,且性能随模型规模增大而显著提升。
🔸消融实验证明,相较于仅依赖最终结果的稀疏奖励,引入分层里程碑的稠密奖励机制能显著稳定训练过程并防止高性能模型的性能崩塌。
🔸训练出的策略具备强大的框架无关泛化能力,在未见过智能体架构(如 AIDE、AIRA)及 MLE-Dojo 基准上均取得显著优于基线的 HumanRank 分数。
💡个人观点
数据集大小是阻碍机器学习工程领域强化学习的核心瓶颈,论文提出“微缩沙箱”概念,程序化生成保留核心逻辑但极度精简数据的合成环境。

更多推荐




所有评论(0)