
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这样带来的问题如下:→ PRM打0或-1(用户下一句表示没解决问题) → 但此时模型已经几乎不会生成"直接写代码"的回复了(概率→ 0) → 无法收到"应该直接写代码"的梯度信号 → 塌缩锁死。Teacher 不断提供"另一种策略的参数方向",防止 Student 完全锁定在单一模式,保持了"Teacher认为可行的策略路径"的支撑集。一旦token 1-20确定了"我用分解策略": token
核心设计思路:API Server 负责"算好所有原材料"(reward、teacher_lp、rollout_lp),Slime 只负责"组装 advantage + 算 loss"。Binary RL 用 Slime 内置 GRPOOPD 靠字段劫持Combine 用 custom loss关键区分:不是所有方法都用同一条路径注入 advantage。
分歧来源OpenClaw 处理方式剩余风险层1: 异步更新. gap Filter 改变分布503 pause + PPO clip 训练时知道哪些被 filter 了同步窗口内积压样本 filter 偏差不可消除层2: 训练/部署环境不同 探索/利用差异在线学习: rollout = deploy real-time 数据天然 on-distribution用户行为渐进漂移层3: reward
AsyncRolloutWorker 是Slime(Policy Training)与 FastAPI Server(Policy Serving)之间的线程边界管理器,它不做推理、不做打分,但控制着Policy Serving的“营业时间",控制着两侧的生命周期和数据流转,并通过output_queue把FastAPI 异步世界里生产的样本,安全地传递给Slime同步训练世界。而且,因为整篇系列
的本质是一个适配器模式——它将"Agent 多轮交互"(业务关注点)与"RL 训练数据生产"(基础设施关注点)完全解耦。这条解耦线画在了generate()函数上。线以上是 Agent 开发者的世界——OpenAI API、工具调用、业务逻辑。线以下是 RL 基础设施的世界——Session Server、TITO、token 对齐、loss mask、异常降级。Agent 开发者不需要知道线以下
掌握Agent的底层逻辑,不仅是熟练使用的基础,更是设计、评估和扩展的关键。对于产品经理、人工智能工程师和技术决策者来说,只有深入理解Agent的技术蓝图,才能在AI应用的落地过程中做出精准布局,抓住未来的机遇。构建一个实用的AI Agent需要哪些核心技术模块的支持?这些核心模块如何协同工作,形成完整的任务执行闭环?AI Agent系统在落地过程中会面临哪些关键挑战,OpenHands如何解决这
每一个Eventid: 事件的唯一标识符。source: 事件的来源,可以是AGENTUSER或。timestamp: 事件发生的时间戳。cause: 触发此事件的另一个事件的id。将系统中的所有互动都抽象为Event,我们得到了一种通用的语言。无论是Agent的决策、用户的消息还是环境的反馈,都可以统一处理、存储和分发。特别是cause字段,它像一条看不见的线,将Action和它引起的Obser
大模型是不可控的。不是‘给LLM一堆工具让它自由发挥’,而是大部分由确定性代码构成,在关键决策点巧妙地融入LLM能力。好的 Agent 应用,是工程设计与 AI 能力的精妙结合,而不是对 AI 的盲目放权。在 OpenHands 智能框架的生态中,CodeActAgent 占据着核心地位,它是基于 CodeAct 理念构建的核心代理模块。其设计初衷极具巧思:将各类复杂任务统一转化为 “代码执行”
“会说话的只是ChatBot,会调工具做事的才叫Agent”。大模型本质上是一个文本生成器,它不能直接操作系统、调用 API、访问数据库。所有这些能力都需要额外的工程实现。Agent 工具使用模式是突破大语言模型(LLM)固有局限、实现 Agent 与现实世界交互的核心架构范式,其本质是让 LLM 从单纯的文本生成器转变为具备感知、推理和行动能力的智能体,核心依托 ReAct 循环中模型对工具调用
25年底,阶跃星辰升级发布了全新的AI Agent系列模型Step-GUI,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议:GUI-MCP(Graphical User Interface - Model Context Protocol),这是首个专为图形用户界面自动化而设计的 MCP 实现,兼顾标准化与隐私保护。GitHub仓库技术论文GUI-MCP 提供一套标准化、跨平







