智谱正式发布新一代开源旗舰模型 GLM-5.2,面向长程任务(Long Horizon Task)的最新旗舰,相比前代 GLM-5.1 在长程任务能力上实现了显著飞跃,并以 MIT 协议 开源。众智 FlagOS 社区第一时间完成多芯片适配与推理部署,目前已覆盖摩尔线程、平头哥、沐曦、海光等四款非英伟达芯片。开发者可通过 FlagOS 跨芯开源系统软件栈快速部署,模型文件与部署方案同步在魔搭社区与 HuggingFace 提供。

GLM-5.2 是一款支持稳定可用的 1M 上下文、专为长程任务(Long Horizon Task)打造的模型,其核心能力包括:

  • 扎实的 100 万上下文:稳定支持长程工作的 100 万 token 上下文

  • 灵活投入的高级编码能力:更强的编码能力,支持多种推理投入级别,以平衡性能与延迟

  • 改进的架构:提出 IndexShare,在每四个稀疏注意力层之间复用相同的索引器,在 100 万上下文长度下将每个 token 的 FLOPs 降低 2.9 倍;改进 MTP 层以支持推测解码,接受长度最多提升 20%

  • 完全开源:MIT 开源许可证,无地域限制

Image

Part.01

FlagOS 双插件跨芯适配:

vLLM + SGLang

GLM-5.2 官方基于 vLLM(v0.23.0+)和 SGLang(v0.5.13+)提供推理方案。这两个框架在非 NVIDIA 芯片上依赖 cuBLAS、NCCL 等 NVIDIA 专属组件(SGLang 额外依赖 FlashInfer),无法直接运行。FlagOS 通过其插件体系vLLM-Plugin-FL和 SGLang-Plugin-FL,在不修改框架源码的前提下完成跨芯适配。

vLLM-Plugin-FL

vLLM-Plugin-FL 的适配分两条独立路径:

  • ATen 底层算子:通过 flag_gems.enable() 将 PyTorch ATen 算子(matmul、softmax 等)替换为 FlagGems Triton kernel,解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。FlagGems 目前已覆盖 510+ 算子,Triton kernel 只要目标芯片支持 Triton 编译器即可运行。

  • vLLM 融合算子层:对于 vLLM 框架特有的融合算子(silu_and_mul、rms_norm、rotary、attention 等),插件采用三级 fallback 调度:优先使用 FlagGems Triton kernel(跨芯片通用),其次尝试芯片厂商 native kernel(针对性优化),最终回退至 PyTorch 参考实现(功能兜底)。

SGLang-Plugin-FL

SGLang-Plugin-FL 的跨芯能力建立在三层替换机制之上,每一层服务于不同的芯片可移植需求:

  • ATen 底层算子:通过 flag_gems.enable() 将 PyTorch ATen 算子(matmul、softmax 等)替换为 FlagGems Triton kernel。Triton 是跨芯片编程语言,FlagGems kernel 只要目标芯片支持 Triton 编译器即可运行,解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。

  • SGLang融合算子层:SGLang 的融合算子(SiluAndMul、RMSNorm、RotaryEmbedding 等)依赖 NVIDIA 专属 sgl_kernel,非 NVIDIA 芯片无法执行。插件通过 HookRegistry.AROUND 拦截融合算子 dispatch,路由至与 vLLM-Plugin-FL 对齐的调度系统,采用三级 fallback:优先使用 FlagGems Triton kernel(跨芯片通用),其次尝试芯片厂商 native kernel(针对性优化),最终回退至 PyTorch 参考实现(功能兜底)。

  • 分布式通信层:SGLang 多卡推理依赖 NCCL。插件通过 hook 拦截通信操作,注入 CommunicatorFL 将通信路由至 FlagCX 跨芯通信抽象层,底层适配各芯片原生通信库。

芯片厂商接入

两种插件采用一致的芯片厂商接入方式:实现一个 Backend 子类(含硬件检测和算子实现),编写 register_ops.py 声明算子覆盖范围,并在 platform.py 中添加一行通信后端映射。厂商目录放置后由插件自动发现加载,同一套后端实现可同时用于 vLLM-Plugin-FL 和 SGLang-Plugin-FL,无需修改插件源码。

精度评测:核心能力与原生版本对齐

经 GPQA Diamond 和 MuSR 等权威评测集验证,FlagOS 适配后的 GLM-5.2 在国产芯片上的推理精度与英伟达原生高度接近。本次评测以英伟达原生作为精度基线,在统一测试环境下进行交叉验证:

Image

评测说明:结果仅用于跨芯适配精度对齐。由于评测代码和环境为实验室内部环境,并不代表智谱模型官方性能。评测结果反映"芯片 + FlagOS 软件栈"组合的表现,非纯硬件对比。

Part.02

开发者速用指南

FlagOS 社区已完成 GLM-5.2 的跨芯适配,开发者可选择 vLLM-Plugin-FL 或 SGLang-Plugin-FL 进行部署。两种方式均通过 FlagGems 算子库实现跨芯片推理,安装后即装即用。

方式一:vLLM-Plugin-FL 部署

目前支持平头哥、沐曦和海光芯片。

快速安装

# 1. 安装 vLLM v0.20.2 or vLLM v0.13.0pip install vllm==0.20.2
# 2. 安装 vllm-plugin-FLgit clone https://github.com/flagos-ai/vllm-plugin-FLcd vllm-plugin-FLpip install --no-build-isolation -e .
# 3. 安装 FlagGems 算子库git clone https://github.com/flagos-ai/FlagGemscd FlagGems && git checkout v5.0.0pip install --no-build-isolation -e .
# 4. (可选) 安装 FlagTree 跨芯编译器python3 -m pip uninstall -y tritonpython3 -m pip install flagtree==0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple
# 5. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX

运行推理

# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2
# 6. 启动 vLLM 推理服务from vllm import LLM, SamplingParamsprompts = ["请介绍下众智FlagOS 2.1的新功能"]sampling_params = SamplingParams(max_tokens=10, temperature=0.0)llm = LLM(model="zai-org/GLM-5.2",           max_num_batched_tokens=16384,          max_num_seqs=2048)outputs = llm.generate(prompts, sampling_params)for output in outputs:    print(f"Prompt: {output.prompt!r}")    print(f"Generated: {output.outputs[0].text!r}")

方式二:SGLang-Plugin-FL 部署

目前支持摩尔线程芯片。

快速安装

# 1. 安装 SGLangpip install "sglang[all]==0.5.11"
# 2. 安装 FlagGems 算子库(v5.3.0)git clone https://github.com/flagos-ai/FlagGemscd FlagGems && git checkout tags/v5.3.0 && pip install .
# 3. 安装 SGLang-Plugin-FLgit clone https://github.com/flagos-ai/sglang-plugin-FLcd sglang-plugin-FL && pip install .
# 4. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX

运行推理

# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2
# 6. 启动 SGLang 推理服务(SGLang-Plugin-FL 自动加载)python -m sglang.launch_server \  --model zai-org/GLM-5.2 \  --tp 8 \  --trust-remote-code
# 7. 发送推理请求curl http://localhost:30000/generate \  -H "Content-Type: application/json" \  -d '{    "text": "请介绍下众智FlagOS 2.1的新功能",    "sampling_params": {"temperature": 0, "max_new_tokens": 256}  }'

方式三:模型镜像直接下载

用户也可以直接拉取 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本,开箱即用、无需迁移。

魔搭平台

Image

HuggingFace 平台

Image

Part.03

FlagOS 2.1 技术底座:

面向 AI Agent 时代的系统软件基石

FlagOS 2.1 也于近期发布,它是北京智源人工智能研究院联合北大、清华、中科院计算所等科研机构,以及十多家芯片厂商、操作系统与服务器厂商共同打造的面向 AI Agent 时代的多芯片系统软件栈。其核心架构分四层:多领域算子库(FlagGems 及 6 大领域库)→ 跨芯编译器(FlagTree)→ 跨芯通信库(FlagCX)→ 多框架插件体系,向上通过 AI Agent 工具链(KernelGen / FlagScale Agent / FlagRelease)实现自动化的跨芯适配、性能优化与版本发布。

Image

算子层:从大模型专用走向全领域覆盖

FlagGems 是 FlagOS 核心高性能算子库,已拥有 510+ 算子、原生支持近 20 家 AI 芯片,并已进入 PyTorch 基金会生态。针对 vLLM 推理场景推出的 FlagGems-vLLM 融合算子库已兼容 75 个 vLLM 融合算子,DeepSeek V4 算子全覆盖,部分算子性能大幅超越原生实现(FP8 MatMul 提升 2.47 倍,Sparse Attention 提升 1.65 倍,Hadamard Transform 提升 1.89 倍)。同时,FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio,覆盖科学计算与信号处理场景,共计 102 个领域算子,从"大模型专用"走向全领域覆盖。

编译层:FlagTree 三阶段统一,面向 Agent 可编程

FlagTree 是面向多 AI 芯片的跨芯编译器,分三阶段演进:① 灵活接入层——已支持 14 家厂商、23 种 AI 芯片(Q2 新增阿里达摩院、辉羲智能、ARM 等,通过 FlagTree-CPU 首次支持 Arm64);② Triton-TLE 语言扩展——让开发者编写高性能算子,重点算子在多种芯片上超越原生 C 语言实现(如 MoeAlignBlockSize 加速 4.06x、FlashQLA 加速 7.10x、FFT 加速 38.67x 等);③ 中间表示 FLIR——首批支持 3 种架构、76 个原语、103 个算子,让 Agent 可以在结构化优化空间中高效搜索。

Agent 工具链:自动生成、自动优化、自动迁移

  • KernelGen:AI-Native 算子自动生成工具,支持"生成一次、自动优化、多芯片运行",已支持 7 款芯片的算子自动生成。在 KernelGenBench(首个多来源多芯片算子生成评测基准)中,Level-1/2/3 任务正确率达 74.1%/92.9%/87.8%,显著超越其他生成方案。

  • FlagScale Agent:AI Infra 领域专用智能体,通过 16+ 领域 Skill 和 12 个运行时 Guard 实现约束驱动的模型迁移、框架升级与精度对齐。在训练任务从英伟达向国产集群的自动迁移中,以稳定配置跑满 100 步实现双平台完全收敛(final diff 0.12%),远超通用 Agent 的表现。

  • FlagRelease:自动化模型跨芯迁移与发版平台,已实现 10+ 款芯片上数十个开源模型的版本发布,覆盖 HuggingFace 与魔搭社区,并提供 Express 优化版本(如 Qwen3.6-27B 在沐曦上相对原生性能达 110%)。

  • FlagCICD:多芯片持续集成与交付平台,管理多元芯片的构建、测试与质量验证,解决芯片 × 驱动 × SDK 的版本矩阵难题。

插件体系:多框架、多芯片接入

FlagOS 已构建完整的跨芯插件体系,覆盖推理、训练、强化学习全场景,所有插件遵循"零侵入"设计原则,实现跨芯发行、跨芯接入、跨芯运行时:

  • vLLM-Plugin-FL / SGLang-Plugin-FL:推理插件,已支持华为昇腾、海光、摩尔线程、沐曦、平头哥、天数智芯、昆仑芯、燧原、英伟达等芯片

  • Megatron-LM-FL / TransformerEngine-FL:训练插件,已与上游核心版本同步

  • PyTorch-Plugin-FL:基础框架插件,支持 FlagOS 与 Vendor 后端灵活选择

  • VeRL-FL:强化学习插件(PR 已合入 VeRL 主仓),支持多芯片 RL 训练

计算架构延伸:从云端到端侧,从经典到量子

  • FlagTree-CPU:首个 Arm64 CPU 后端,通过 Triton-TLE 扩展和 NEON/SVE2 指令级优化,在 ARM 平台上 RMSNorm 相比 ATen 实现提升 150%、Flash-Attention Decode 提升 9 倍。

  • FlagQuantum:首个在量子模拟、可微分编程、硬件无关及多卡扩展四大领域提供原生支持的量智融合框架,支持英伟达、海光、摩尔线程等 AI 芯片及夸父、本源、IBM 等真实量子硬件。

Part.04

开源共建:

FlagOS 持续做开发者的"跨芯适配后盾"

当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的跨芯系统软件栈,把复杂的"M×N"硬件适配问题降维为"M+N",做每一位开发者最可靠的跨芯适配后盾。

全栈开源无保留,把技术主动权交给开发者

目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:

  • 核心基础软件: FlagGems 通用大模型算子库、FlagTree 跨芯 AI 编译器、FlagScale 训练推理并行框架、FlagCX 跨芯通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路

  • 跨芯插件体系: vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、TransformerEngine-FL、PyTorch-Plugin-FL、VeRL-FL,覆盖推理、训练、强化学习全场景

  • AI Agent 时代工具: KernelGen 算子自动生成工具、FlagScale Agent 领域专用智能体、FlagRelease 自动迁移发版平台,以及 FlagOS Skills(10+ 种技能覆盖模型适配、算子生成、性能调优等场景)

多路径参与共建,全层级开发者均可入局

我们为不同技术方向、不同经验层级的开发者,设计了低门槛、多路径的共建方式,无论你是 AI 开发新手,还是深耕系统软件的资深专家,都能在 FlagOS 社区找到自己的位置。

  • 新手友好型参与: 可在对应仓库提交 Issue 反馈 bug、优化建议,或是补充完善文档、撰写入门教程与最佳实践

  • 深度技术共建: 开发者可直接参与 FlagGems 算子开发与优化(新增算子 / 性能调优 / 新芯片后端支持)、FlagTree 编译器后端扩展等核心模块

  • 生态工具贡献: 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能,帮助更多开发者通过自然语言完成芯片适配、模型部署等操作

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐