logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (1)---基础

我们思考一下:为什么 Track 1 不直接用环境信号?因为个人助理场景的反馈是模糊自然语言(“你理解错了”、“再说一遍”),没有程序化的 true/false。PRM 充当"理解人类意图的翻译器",把模糊反馈转化为可训练的标量 reward。Track 2 则相反——exit code 和测试用例是天然的二值信号,不需要额外的 LLM 来"翻译"。主要 rewardPRM(LLM judge 解

#人工智能#transformer#机器学习
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation

RL:自己下棋,只知输赢,不知错步,要自己摸索离线蒸馏:看大师棋谱,照搬但不理解自身棋局。自己下棋,大师实时逐步点评,精准纠错。有具体建议+正确示范,学得更快。所以,OPD就像是给AI配了一个超级耐心的老师,让它在帮你做事的过程中,不断地变得更聪明、更贴心!设 P = teacher 分布, Q = student 分布正向 KL (Forward KL):→ 用 teacher 的分布加权反向

#人工智能#深度学习#transformer
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation

RL:自己下棋,只知输赢,不知错步,要自己摸索离线蒸馏:看大师棋谱,照搬但不理解自身棋局。自己下棋,大师实时逐步点评,精准纠错。有具体建议+正确示范,学得更快。所以,OPD就像是给AI配了一个超级耐心的老师,让它在帮你做事的过程中,不断地变得更聪明、更贴心!设 P = teacher 分布, Q = student 分布正向 KL (Forward KL):→ 用 teacher 的分布加权反向

#人工智能#深度学习#transformer
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (1)---基础

我们思考一下:为什么 Track 1 不直接用环境信号?因为个人助理场景的反馈是模糊自然语言(“你理解错了”、“再说一遍”),没有程序化的 true/false。PRM 充当"理解人类意图的翻译器",把模糊反馈转化为可训练的标量 reward。Track 2 则相反——exit code 和测试用例是天然的二值信号,不需要额外的 LLM 来"翻译"。主要 rewardPRM(LLM judge 解

#人工智能#transformer#机器学习
PyTorch KernelAgent 源码解读 ---(5)--- Dispatcher

dispatch_kernel_agent.py 是 KernelAgent 系统中的调度组件,负责将 subgraph_extractor.py 生成的子图(JSON 格式)转换为具体的 Triton 内核生成任务,并调度 TritonKernelAgent 来生成和验证这些内核。

#pytorch#人工智能#python +3
PyTorch KernelAgent 源码解读 ---(3)--- orchestrator

orchestrator 是 KernelAgent 系统中的一个核心组件,负责协调和管理多个工作进程(worker),实现并行执行任务并从中选择最优结果。Fuser/orchestrator.py 文件实现了 Orchestrator 类,用于多进程协调任务执行。其功能用一句话概括:fork N 个Worker竞赛,首个 PASS胜出,其余终止,产物打包返回。动词选择差异Rewrite:重新编写

#pytorch#人工智能#python +3
PyTorch KernelAgent 源码解读 ---(4)--- ExtractorAgent

subgraph_extractor.py 是 KernelFalcon 实现 “PyTorch 模型子图提取 + 形状签名去重” 的关键组件,核心职责是通过 Fuser 生成融合代码后,借助 LLM 解析并提取模型中唯一的计算子图(按形状 / 算子 / 权重特征去重),最终输出标准化 JSON 格式的子图信息。这一模块体现了 “Agent 端到端优化” 中 “精准子图识别” 的关键能力。

#pytorch#人工智能#python +3
PyTorch KernelAgent 源码解读 ---(1)--- 原理

本系列是论文和博客笔记 + 源码学习笔记,主要是关于 基于 LLM 的 GPU 内核代码生成。随着AI辅助开发的模式的流行,大家开始尝试通过LLM来进行算子的生成和迁移,最近发现,PyTorch 发布了 KernelAgent,其尝试利用 Agent 来端到端实现torch模型优化及 Triton算子自动生成,关键做法是:多agent + 静态路由 + 子图分解 + 严格PASS验证 + 硬件pr

#pytorch#人工智能#python +2
PyTorch KernelAgent 源码解读 ---(2)--- 总体流程

本文基于进行整理和拓展。KernelFalcon 是PyTorch 提出的一个Deep Agents架构系统,该框架主要尝试利用Agent端到端 实现torch模型优化及 Triton算子 自动生成,是首个在全部 250 个 L1/L2/L3 KernelBench 任务上达到 100% 正确率的开源智能体系统。KernelFalcon 代码库位于 github.com/meta-pytorch/

#pytorch#人工智能#python +3
PyTorch KernelAgent 源码解读 ---(4)--- ExtractorAgent

subgraph_extractor.py 是 KernelFalcon 实现 “PyTorch 模型子图提取 + 形状签名去重” 的关键组件,核心职责是通过 Fuser 生成融合代码后,借助 LLM 解析并提取模型中唯一的计算子图(按形状 / 算子 / 权重特征去重),最终输出标准化 JSON 格式的子图信息。这一模块体现了 “Agent 端到端优化” 中 “精准子图识别” 的关键能力。

#pytorch#人工智能#python +3
    共 114 条
  • 1
  • 2
  • 3
  • 12
  • 请选择