
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我们思考一下:为什么 Track 1 不直接用环境信号?因为个人助理场景的反馈是模糊自然语言(“你理解错了”、“再说一遍”),没有程序化的 true/false。PRM 充当"理解人类意图的翻译器",把模糊反馈转化为可训练的标量 reward。Track 2 则相反——exit code 和测试用例是天然的二值信号,不需要额外的 LLM 来"翻译"。主要 rewardPRM(LLM judge 解
RL:自己下棋,只知输赢,不知错步,要自己摸索离线蒸馏:看大师棋谱,照搬但不理解自身棋局。自己下棋,大师实时逐步点评,精准纠错。有具体建议+正确示范,学得更快。所以,OPD就像是给AI配了一个超级耐心的老师,让它在帮你做事的过程中,不断地变得更聪明、更贴心!设 P = teacher 分布, Q = student 分布正向 KL (Forward KL):→ 用 teacher 的分布加权反向
RL:自己下棋,只知输赢,不知错步,要自己摸索离线蒸馏:看大师棋谱,照搬但不理解自身棋局。自己下棋,大师实时逐步点评,精准纠错。有具体建议+正确示范,学得更快。所以,OPD就像是给AI配了一个超级耐心的老师,让它在帮你做事的过程中,不断地变得更聪明、更贴心!设 P = teacher 分布, Q = student 分布正向 KL (Forward KL):→ 用 teacher 的分布加权反向
我们思考一下:为什么 Track 1 不直接用环境信号?因为个人助理场景的反馈是模糊自然语言(“你理解错了”、“再说一遍”),没有程序化的 true/false。PRM 充当"理解人类意图的翻译器",把模糊反馈转化为可训练的标量 reward。Track 2 则相反——exit code 和测试用例是天然的二值信号,不需要额外的 LLM 来"翻译"。主要 rewardPRM(LLM judge 解
dispatch_kernel_agent.py 是 KernelAgent 系统中的调度组件,负责将 subgraph_extractor.py 生成的子图(JSON 格式)转换为具体的 Triton 内核生成任务,并调度 TritonKernelAgent 来生成和验证这些内核。
orchestrator 是 KernelAgent 系统中的一个核心组件,负责协调和管理多个工作进程(worker),实现并行执行任务并从中选择最优结果。Fuser/orchestrator.py 文件实现了 Orchestrator 类,用于多进程协调任务执行。其功能用一句话概括:fork N 个Worker竞赛,首个 PASS胜出,其余终止,产物打包返回。动词选择差异Rewrite:重新编写
subgraph_extractor.py 是 KernelFalcon 实现 “PyTorch 模型子图提取 + 形状签名去重” 的关键组件,核心职责是通过 Fuser 生成融合代码后,借助 LLM 解析并提取模型中唯一的计算子图(按形状 / 算子 / 权重特征去重),最终输出标准化 JSON 格式的子图信息。这一模块体现了 “Agent 端到端优化” 中 “精准子图识别” 的关键能力。
本系列是论文和博客笔记 + 源码学习笔记,主要是关于 基于 LLM 的 GPU 内核代码生成。随着AI辅助开发的模式的流行,大家开始尝试通过LLM来进行算子的生成和迁移,最近发现,PyTorch 发布了 KernelAgent,其尝试利用 Agent 来端到端实现torch模型优化及 Triton算子自动生成,关键做法是:多agent + 静态路由 + 子图分解 + 严格PASS验证 + 硬件pr
本文基于进行整理和拓展。KernelFalcon 是PyTorch 提出的一个Deep Agents架构系统,该框架主要尝试利用Agent端到端 实现torch模型优化及 Triton算子 自动生成,是首个在全部 250 个 L1/L2/L3 KernelBench 任务上达到 100% 正确率的开源智能体系统。KernelFalcon 代码库位于 github.com/meta-pytorch/
subgraph_extractor.py 是 KernelFalcon 实现 “PyTorch 模型子图提取 + 形状签名去重” 的关键组件,核心职责是通过 Fuser 生成融合代码后,借助 LLM 解析并提取模型中唯一的计算子图(按形状 / 算子 / 权重特征去重),最终输出标准化 JSON 格式的子图信息。这一模块体现了 “Agent 端到端优化” 中 “精准子图识别” 的关键能力。







