字节：打造CUDA内核优化SKILL

如何让大语言模型真正掌握CUDA内核优化能力，从而超越传统编译器（如torch.compile）生成更高速、更正确的GPU内核？论文提出首个大规模智能体强化学习系统CUDA Agent，通过数据合成、技能增强型开发环境与稳定RL训练三方面协同设计，首次使LLM在KernelBench上全面超越torch.compile及顶尖闭源模型。

大模型任我行

508人浏览 · 2026-03-05 08:00:00

大模型任我行 · 2026-03-05 08:00:00 发布

在这里插入图片描述

📖标题：CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
🌐来源：arXiv, 2602.24286v1

🌟摘要

GPU内核优化是现代深度学习的基础，但仍然是一项高度专业化的任务，需要深厚的硬件专业知识。尽管在一般编程中性能强劲，但大型语言模型（LLM）与基于编译器的系统（如用于CUDA内核生成的torch. compile）相比仍然没有竞争力。现有的CUDA代码生成方法要么依赖于无训练细化，要么依赖于固定多圈执行反馈循环中的微调模型，而这两种范式都未能从根本上提高模型的内在CUDA优化能力，导致性能提升有限。我们介绍了CUDA Agent，这是一个大规模代理强化学习系统，它通过三个组件开发CUDA内核专业知识：可扩展的数据合成管道、具有自动验证和分析功能的技能增强的CUDA开发环境，以提供可靠的奖励信号，以及支持稳定训练的RL算法技术。CUDA Agent在KernelBench上实现了最先进的结果，在KernelBench 1级、2级和3级拆分上比torch. compile提高了100%、100%和92%的速度，在最困难的3级设置上比最强大的专有模型（例如克劳德作品4.5和双子座3专业版）的性能高出约40%。

🛎️文章简介

🔸研究问题：如何让大语言模型真正掌握CUDA内核优化能力，从而超越传统编译器（如torch.compile）生成更高速、更正确的GPU内核？
🔸主要贡献：论文提出首个大规模智能体强化学习系统CUDA Agent，通过数据合成、技能增强型开发环境与稳定RL训练三方面协同设计，首次使LLM在KernelBench上全面超越torch.compile及顶尖闭源模型。

📝重点思路

🔸构建可扩展的三层数据合成流水线：从PyTorch/Transformers库爬取基础算子，由LLM组合生成融合任务，并通过执行验证、确定性、负载合理性等四重过滤生成6K高质量训练样本。
🔸设计技能增强型CUDA开发环境：以SKILL.md形式结构化编码规范，集成自动编译、正确性验证（5输入多点比对）、性能剖析（同步+预热+多次均值）及系统级权限隔离，杜绝reward hacking。
🔸提出多阶段RL暖启策略：先单轮PPO提升基础能力；再通过拒绝采样微调（RFT）初始化Actor，确保高质量行为先验；最后用价值预训练（Value Pretraining）初始化Critic，稳定200步长交互训练。
🔸采用鲁棒离散奖励机制：按正确性与相对加速阈值（>5%）分档赋分（−1/1/2/3），避免连续speedup奖励受噪声和难度偏差干扰。

🔎分析总结

🔸CUDA Agent在KernelBench Level-1/2/3分别实现100%/100%/92%快于torch.compile，几何平均加速达2.11×，显著优于Claude Opus 4.5和Gemini 3 Pro约40%（Level-3）。
🔸消融实验证明：移除技能型Agent环导致Pass Rate骤降21.7%，Faster Rate归零；放弃鲁棒奖励仅保正确性但优化能力腰斩；缺少RFT或Value Pretraining均引发训练崩溃。
🔸案例分析揭示五大共性优化模式：代数简化（如对角矩阵乘转行缩放）、算子融合、内存合并访问、硬件感知调优（TF32/Tensor Core启用）、库感知调度（cuDNN融合API调用）。
🔸系统级设计有效抑制reward hacking：通过文件权限锁定、禁用fallback、五输入验证、精准同步测量及禁用外部工具，保障奖励信号真实可靠。