一、凌晨三点,一个开源模型的困惑

凌晨三点,你盯着屏幕上的训练日志,第 47 次实验的 loss 曲线依然没有收敛。

你手里有一个开源的基座模型,权重是完整的,代码是干净的,你知道它"能变得更强"——但"怎么变"这件事,始终隔着一层玻璃。RLHF、PPO、GRPO、OPD……这些算法你读过论文,甚至自己写过实现。但真正跑起来的时候,bug 藏在每一行脚本里,分布式训练的通信死锁永远在凌晨出现,推理引擎和训练引擎之间永远差着一次 OOM。

你突然意识到,算法是公开的,但"把算法变成生产级训练流水线"这件事,过去一直是闭源厂商的独门秘籍。

2026 年 6 月,智谱把这个秘籍开源了。

它叫 slime。


二、slime 是什么:三块积木,一条流水线

slime 的架构出奇地简洁。三个模块,一条路径:

training 模块,基于 Megatron-LM,负责分布式训练。它从数据缓冲区读取训练数据,训练完成后把参数同步给推理模块。

rollout 模块,基于 SGLang 加一层路由器,负责生成新数据。模型在推理阶段产生回答,计算奖励和验证结果,然后把数据存回缓冲区。通过自定义生成接口,你可以在这一层叠加多轮对话、工具调用、沙箱交互,甚至完整的智能体工作流。

data buffer,连接两边的桥梁。管理提示词、自定义数据、以及各种推理数据生成方式——包括智能体工作流,全部走同一套接口。

Megatron 训练、SGLang 推理、自定义数据生成、奖励计算、验证反馈、环境交互——全部走同一条路径。没有拆成互不相关的训练器、推理服务、智能体框架,也没有在中间加一层又一层抽象。就是一条干净的流水线,每个环节都可观测、可调试、可替换。

这听起来似乎没什么了不起。但真正跑过分布式 RL 训练的人都知道,把这三件事串起来,并且让它在 2048 张 GPU 上稳定运行 48 小时不挂——这件事的工程难度,比写一篇 RL 论文高出两个数量级。


三、为什么这套设计重要:三个反直觉的选择

slime 背后有几个关键设计理念,每一个都值得展开说。

正确性优先:RL 的 bug 不报错,是最大的陷阱

这是 slime 团队最核心的工程哲学,也是一句真正理解过 RL 训练的人才会说的话。

普通的深度学习任务,bug 通常会报错:张量维度不对,直接报 RuntimeError;显存不够,直接 OOM;梯度爆炸,loss 变成 NaN。你至少知道出了问题。

但强化学习不一样。RL 里的 bug 往往不会立刻报错——它只是让模型学得慢一点,或者朝错误的方向学,或者 reward 信号悄悄偏移了 5%。你跑完 48 小时训练,发现模型能力没有提升,但无法确定是算法设计的问题、超参数的问题、还是某个角落的 bug 在悄悄吞噬你的算力。这种"静默失效"比报错可怕一万倍,因为它浪费的不是代码,而是真金白银的 GPU 小时。

slime 的应对方式是:保持数据流动的显式可见,支持"只跑推理"和"只跑训练"两种模式分开调试,把可复现性、容错能力、追踪、性能分析和持续集成都当作核心工程问题来对待。项目维护了 CPU 单元测试、契约测试和 GPU 端到端测试,覆盖稠密模型和 MoE 模型、Megatron 训练路径、SGLang 部署配置、检查点、数值精度、异步推理,以及 OPD 和 PPO 类工作流。

这不是"锦上添花"的工程实践,这是 RL 训练的生死线。

原生透传:不包一层,直接暴露

大多数训练框架会在 Megatron 和 SGLang 外面再包一层抽象,把上游引擎的参数封装成自己的配置项。好处是接口统一,坏处是——上游引擎每次更新,你都得跟着改封装,而且永远只能用到"最小公共功能集"。

slime 的做法是:不包。Megatron 的参数直接透传,SGLang 的参数加上 --sglang- 前缀直接透传。你安装的 SGLang 版本支持什么参数,slime 就支持什么参数。上游引擎的每一次优化,你都能直接拿来用。

这个设计选择的代价是:slime 放弃了对多个推理后端的兼容。它只深度支持 SGLang。但收益是巨大的——它不需要为了兼容多个推理框架而把各家的最强特性都磨平,而是可以直接用上 SGLang 特有的服务、路由、缓存、PD 分离部署和权重同步能力。这是一种"有取舍的深度",而不是"什么都支持的浅度"。

数据自由:最大的自由度留给最不确定的事

RL 训练中,数据生成是最不确定的环节。今天是数学题,明天是代码生成,后天是搜索增强的智能体工作流,大后天可能是一个多智能体协作系统。如果框架把数据生成的接口写死了,那每一次新场景的适配都是一场噩梦。

slime 的策略是:数据生成接口完全开放。数学、代码、搜索、工具调用、沙箱、验证器、环境交互,以及多智能体系统和长链路智能体工作流,都可以作为数据生成或奖励计算的方式接入,不需要改动训练内核。你只需要实现一个自定义的生成函数,然后通过 --custom-generate-function-path 挂进去。

这本质上是在说:我知道未来会出现什么新的 RL 范式,但我不知道。所以我把可能性留给你。


四、2 天训出 GLM-5.2:OPD 后训练的工程奇迹

GLM-5.2 现在火遍了全网。Code Arena 全球可用模型第一,FrontierSWE 与 Claude Opus 4.8 差距仅 1%,Terminal-Bench 2.1 得分 81.0,比前代 GLM-5.1 的 63.5 大幅提升 17.5 个百分点——这些都是事实。

但更让人震撼的是另一个数字:GLM-5.2 的整个 OPD(Off-Policy Distillation)后训练,在 slime 平台上仅仅用了大约 2 天。

2 天是什么概念?这意味着,一个拥有数千亿参数的大模型,从基座训练完成到完成 RL 后训练、达到发布级水平,整个后训练流程的时间窗口被压缩到了"一个周末"。这背后是 Megatron 和 SGLang 深度联调带来的训推效率飞跃——训练和推理在同一套基础设施上无缝切换,权重同步、数据流转、检查点管理全部自动化,不需要人工在不同系统之间搬运数据。

而 slime 已经经过了 GLM-5.2、5.1、5、4.7、4.6、4.5 六个版本的完整验证。这意味着它背后验证的不只是一两个 demo,而是一整套完整的后训练流程,规模和复杂度远超普通的演示案例。每一个版本的发布,都是对 slime 的一次压力测试。GLM-4.5 的技术报告里详细记录了 slime 在异步强化学习方面的创新,GLM-5 的技术报告则展示了它在超大规模训练中的稳定性。而到了 GLM-5.2,slime 已经成了智谱内部的"标准后训练流水线"。

同时,slime 还支持 Qwen 系列(Qwen3.6、3.5、3Next、3MoE、3、2.5)、DeepSeek V3 系列(V3、V3.1、R1)以及 Llama 3。这意味着不管你用的是谁的基座模型,你都可以把 slime 当作你的 RL 后训练底座。

这就像智谱不是在说"看我的模型多厉害",而是在说"看我的炼丹炉多好用——你可以用你自己的药材,炼你自己的丹药。"


五、12 个生态项目:从模型后训练到 GPU 内核生成

如果你的判断只停留在"slime 是一个训练框架",那你就低估了它的生态价值。

围绕 slime,目前已经涌现了 12 个独立的生态项目,覆盖了从企业级后训练到 GPU 内核生成的完整光谱。它们不是 demo,而是把 slime 当作可复用 RL 底座的独立系统。

Miles(RadixArk):面向大规模模型训练的企业级强化学习框架。与 slime 保持紧密同步,同时针对企业场景做了更深的 SGLang 集成、运维部署工具,以及 LoRA、TITO、低精度训练等生产环境能力。如果你是一家企业,想要在自己的模型上跑 RL 后训练,Miles 就是你的"开箱即用"方案。

vime(vLLM 项目维护):vLLM 原生的后训练框架。保留了 slime 的 Megatron 训练栈、数据缓冲区和自定义数据生成设计,但把推理后端换成了 vLLM。在现有 slime 启动脚本上只需调整推理相关参数就能完成适配。这意味着 slime 的架构设计是足够"解耦"的——推理后端不是锁死的,你可以选择最适合自己的那一个。

Relax(RedAI Infra):全模态智能体强化学习框架。在 Ray、Megatron 和 SGLang 组成的 slime 基础设施之上,用 TransferQueue 把 Actor、Rollout、Reference 和优势计算完全解耦到独立 GPU 集群,支持文本、视觉、音频(包括 Qwen3-Omni)以及智能体多轮推理的端到端强化学习。这是目前开源社区中少有的"全模态 RL 训练"方案。

OpenClaw-RL:面向个性化智能体的强化学习服务。它托管模型并从跨部署的历史对话中持续改进,依靠 slime 的异步 RL 基础设施避免训练干扰正常服务。支持 GRPO 和同策略蒸馏两种优化方法。

P1:一系列完全通过 RL 训练的开源物理推理模型,在开源物理推理上取得了突破性表现。它提出了一套多阶段 RL 训练算法,通过自适应可学习性调整逐步增强推理能力。

RLVE:用 400 个可验证环境来扩展语言模型的 RL。每个环境以程序化方式生成问题,并提供可用算法验证的奖励,随训练进展动态调整问题难度分布——这解决了 RL 训练中"题目难度与模型能力不匹配"的核心痛点。

TritonForge:用 slime 的监督微调和 RL 能力,训练能自动生成优化 GPU 内核的大模型。通过 SFT + 带多轮编译反馈的 RL 两阶段训练,把 PyTorch 算子自动转换成高性能 Triton 内核。

APRIL:一种系统级优化,通过主动多发请求并管理部分完成结果,缓解 RL 训练中推理生成阶段的长尾瓶颈——这个阶段通常会占 RL 训练 90% 以上的时间。

qqr(hilichurl):slime 的轻量扩展,实现 ArenaRL 算法,通过锦标赛式相对排名缓解判别性能坍缩,同时无缝集成 MCP,实现可扩展的分布式智能体演化。

ART(AgentCore RL Toolkit):把真实生产环境中的智能体适配到 AWS Bedrock AgentCore 运行时上做 RL 训练的工具包,用户只需在智能体代码上加一个装饰器就能完成训练适配。

从企业级后训练到 GPU 内核自动生成,从全模态 RL 到可验证环境训练,从推理系统优化到生产环境智能体优化——这些项目共同说明了一件事:一个高性能的 RL 内核,可以同时支撑顶尖模型的后训练、在线智能体优化、可验证环境、全模态推理、内核生成和推理系统研究,不需要改动核心训练循环。

这不是一个框架,这是一个生态位。


六、唐老师 vs 马斯克:Fable 5 倒计时

就在 slime 开源和 GLM-5.2 发布后,一场隔空对话在社交媒体上炸开了锅。

6 月 18 日,有网友向马斯克提问:“中国大模型预计何时能达到 Anthropic 的 Fable 水平?GLM-5.2 无疑缩短了差距。”

马斯克回复:“可能在一季度(2027 年)。”

紧接着,智谱创始人兼首席科学家唐杰教授只回了四个字:“不会那么久。”

马斯克似乎不甘示弱,又补了一句:“单看跑分或许是这样;但如果以实际落地实用价值来评判,就算明年一季度追上,也已经相当厉害了。Anthropic 的思路是对的,他们全力打磨具备真实实用价值的智能能力。”

唐杰的回应更耐人寻味:“专注就是我们唯一需要的东西,尤其是要聚焦于智能的本质究竟是什么……”

这段对话随后被硅谷投资大咖 Marc Andreessen 转发,附上了一句"Interesting"。

坦率地说,这场"辩论"的象征意义远大于技术意义。马斯克说 Q1 2027,唐杰说"不会那么久"——但两个人都没有说"不可能"。真正重要的不是谁猜得更准,而是"中国开源模型达到 Fable 5 级别"这件事,已经从"科幻"变成了"倒计时"。

而 slime 的开源,就是这个倒计时上最响的一声滴答。

因为当 slime 把 RL 后训练的能力从"少数人的特权"变成了"所有人的基础设施",Fable 5 级别的开源模型就不再是某一个实验室的独角戏,而是整个开源社区可以共同推进的目标。12 个生态项目,每一个都在用自己的方式缩短这个距离。Miles 在做企业级部署,vime 在兼容 vLLM,Relax 在攻克全模态,P1 在专攻物理推理,TritonForge 在自动生成 GPU 内核——它们不是竞争关系,而是从不同方向合围 Fable 5。

真正的护城河不是模型本身,而是训练模型的能力。当炼丹炉变成开源基建,炼出来的丹药就不再是少数人的特权。


七、深入思考:RL 后训练从「闭源秘籍」到「开源基建」

回顾过去两年大模型行业的发展,一个清晰的脉络正在浮现。

2024 年,RLHF 是闭源厂商的核心竞争力。OpenAI、Anthropic 把 RL 后训练视为最高机密,公开发表的论文里关于 RL 训练的具体细节总是语焉不详,"scale 就是一切"的豪言之下,藏着的是从不公开的训练框架和参数配置。

2025 年,开源社区开始追赶。DeepSeek R1 用 GRPO 证明了开源模型也能做出令人惊艳的推理能力,但它的训练框架仍然是内部工具,没有对外公开。开源社区能复现大致思路,但"工程细节"这个最耗时间的环节,每个人都要从头踩一遍。

2026 年 6 月,slime 开源。经过六个版本 GLM 实战验证的完整 RL 训练框架,两天的 OPD 后训练时间,Megatron + SGLang 的深度联调,12 个独立生态项目——全部开源,MIT 协议。

这不是一个工具的发布,这是一个范式转变的标志

RL 后训练框架不再是闭源厂商的独门秘籍。开源社区现在有了经过顶尖模型验证的生产级 RL 训练工具。这意味着:

第一,模型能力的竞争将从"谁的基座更强"转向"谁的后训练更高效"。当基座模型的差距逐渐缩小,RL 后训练的质量和效率将成为决定模型最终能力的关键变量。而 slime 把这张彩票的"刮奖速度"从几个月压缩到了几天。

第二,开源模型的迭代速度将大幅加快。以前,一个开源模型从发布到被社区优化到极致,通常需要几周到几个月。现在,有了标准化的 RL 后训练流水线,这个周期可能缩短到几天。Fable 5 级别的开源模型,可能在数月内而不是数年内出现。

第三,企业 AI 基础设施正在经历从"使用模型"到"训练模型"的范式转变。过去,企业接入大模型的方式是调用 API,用的是别人的模型,数据安全和合规始终是悬在头顶的剑。现在,企业可以在自己的基础设施上,用自己的数据,通过 slime 这样的开源框架完成 RL 后训练,打造专属的、领域化的模型。这不仅意味着能力的提升,更意味着数据主权回归企业自身。

在这一点上,像 微元算力(weytoken) 这样的企业级大模型 API 聚合平台正在成为关键的基础设施层。企业在多模型接入场景下,既需要灵活调用国内外不同模型的 API 能力,又需要确保数据不出境、合规可控。而随着 RL 后训练工具的开源化,企业级平台的价值将进一步延伸到"模型训练 + 模型使用"的一体化服务——从 API 聚合到私有化部署,从调用模型到训练模型,从数据安全到合规审计,企业需要的是一个完整的、可信任的 AI 基础设施伙伴。


八、企业实践:多模型协作的架构建议

对于关注 AI 落地的企业技术团队来说,slime 的开源带来了一个直接的架构问题:在多模型协作的场景下,应该如何组织训练和推理的流水线?

以下是一个务实的建议:

第一层:推理层。 根据业务场景选择最合适的模型组合。国外模型(如 Claude、GPT 系列)在复杂推理和代码生成上仍有优势,国内模型(如 GLM、Qwen、DeepSeek)在中文理解、合规性和成本上更具竞争力。通过 微元算力(weytoken) 这样的企业级聚合平台,可以统一管理多个模型的 API 接入、计费、监控和权限控制,避免"每个团队自己申请 API Key"带来的合规风险和数据泄露隐患。

第二层:数据层。 收集业务场景中的高质量交互数据,构建领域化的训练数据集。这一步的关键是"数据质量优于数据数量"——slime 的设计理念也印证了这一点:数据生成的自由度越大,数据质量的控制就越重要。

第三层:训练层。 基于 slime 或 Miles 搭建企业内部的 RL 后训练流水线。对于大多数企业来说,不需要从头训练基座模型,而是选择一个适合的开源基座模型(如 GLM-5.2、Qwen3.6 或 DeepSeek V3.1),然后通过 RL 后训练将模型适配到自己的业务领域。

第四层:评估层。 建立领域化的评估体系,持续监控模型在真实业务场景中的表现。RL 训练中最可怕的不是模型不提升,而是模型在提升但你没有发现它在错误的方向上提升——这又回到了 slime "正确性优先"的哲学。

这四层架构的核心逻辑是:推理和训练不是两个独立的任务,而是同一个闭环的两个阶段。 推理产生的数据驱动训练,训练提升的模型服务于推理。slime 把这条流水线标准化了,企业需要做的是在上面搭建自己的业务逻辑。

对于数据安全要求较高的企业,微元算力(weytoken)聚合平台 提供的企业级 API 聚合方案可以在推理层实现多模型接入的统一管控,同时确保敏感数据不经过不可控的第三方节点,为后续的私有化训练奠定数据基础。


九、结尾:当炼丹炉变成开源基建

2026 年 6 月 12 日,美国政府下令 Anthropic 切断所有非美籍用户对 Fable 5 和 Mythos 5 的访问权限。

2026 年 6 月 13 日,智谱在 17 点 21 分——与 Anthropic 收到禁令的同一时刻——宣布 GLM-5.2 面向全量用户开放,以最宽松的 MIT 协议开源。

2026 年 6 月 20 日,智谱把 GLM-5.2 背后的炼丹炉——slime——完整开源。

智谱在公告中写的那句话,值得被记住:

“在一些前沿模型突然变得不可用的时刻,我们选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”

这不是一句口号,而是一个行动。slime 的开源,让 RL 后训练从"闭源厂商的独门秘籍"变成了"开源社区的公共基础设施"。当炼丹炉不再是少数门派的镇派之宝,而是每个修炼者都能拥有的工具——那炼出来的丹药,就不再是少数人的特权。

唐杰对马斯克说的那句"不会那么久",不是因为智谱有多强,而是因为他知道:当整个社区都拥有了生产级的炼丹炉,突破的速度就不再是某一个实验室的速度,而是整个生态的速度。

Fable 5 级别的开源模型,可能真的不会太久了。

而这个生态的加速,需要的不仅是模型能力的开放,更是整个 AI 基础设施的开放——从基座模型到训练框架,从 API 服务到企业级聚合平台,每多一个环节的开放,就让"前沿智能服务于每一位开发者"这句话离现实更近一步。

真正的护城河不是模型本身,而是训练模型的能力。当炼丹炉变成开源基建,炼出来的丹药就不再是少数人的特权。专注,就是我们唯一需要的东西。

更多推荐