FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

FlagOS智算系统软件栈

100人浏览 · 2026-06-26 14:02:13

FlagOS智算系统软件栈 · 2026-06-26 14:02:13 发布

智谱正式发布新一代开源旗舰模型 GLM-5.2，面向长程任务（Long Horizon Task）的最新旗舰，相比前代 GLM-5.1 在长程任务能力上实现了显著飞跃，并以 MIT 协议 开源。众智 FlagOS 社区第一时间完成多芯片适配与推理部署，目前已覆盖摩尔线程、平头哥、沐曦、海光等四款非英伟达芯片。开发者可通过 FlagOS 跨芯开源系统软件栈快速部署，模型文件与部署方案同步在魔搭社区与 HuggingFace 提供。

GLM-5.2 是一款支持稳定可用的 1M 上下文、专为长程任务（Long Horizon Task）打造的模型，其核心能力包括：

扎实的 100 万上下文：稳定支持长程工作的 100 万 token 上下文
灵活投入的高级编码能力：更强的编码能力，支持多种推理投入级别，以平衡性能与延迟
改进的架构：提出 IndexShare，在每四个稀疏注意力层之间复用相同的索引器，在 100 万上下文长度下将每个 token 的 FLOPs 降低 2.9 倍；改进 MTP 层以支持推测解码，接受长度最多提升 20%
完全开源：MIT 开源许可证，无地域限制

Part.01

FlagOS 双插件跨芯适配：

vLLM + SGLang

GLM-5.2 官方基于 vLLM（v0.23.0+）和 SGLang（v0.5.13+）提供推理方案。这两个框架在非 NVIDIA 芯片上依赖 cuBLAS、NCCL 等 NVIDIA 专属组件（SGLang 额外依赖 FlashInfer），无法直接运行。FlagOS 通过其插件体系vLLM-Plugin-FL和 SGLang-Plugin-FL，在不修改框架源码的前提下完成跨芯适配。

vLLM-Plugin-FL

vLLM-Plugin-FL 的适配分两条独立路径：

ATen 底层算子：通过 flag_gems.enable() 将 PyTorch ATen 算子（matmul、softmax 等）替换为 FlagGems Triton kernel，解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。FlagGems 目前已覆盖 510+ 算子，Triton kernel 只要目标芯片支持 Triton 编译器即可运行。
vLLM 融合算子层：对于 vLLM 框架特有的融合算子（silu_and_mul、rms_norm、rotary、attention 等），插件采用三级 fallback 调度：优先使用 FlagGems Triton kernel（跨芯片通用），其次尝试芯片厂商 native kernel（针对性优化），最终回退至 PyTorch 参考实现（功能兜底）。

SGLang-Plugin-FL

SGLang-Plugin-FL 的跨芯能力建立在三层替换机制之上，每一层服务于不同的芯片可移植需求：

ATen 底层算子：通过 flag_gems.enable() 将 PyTorch ATen 算子（matmul、softmax 等）替换为 FlagGems Triton kernel。Triton 是跨芯片编程语言，FlagGems kernel 只要目标芯片支持 Triton 编译器即可运行，解决非 NVIDIA 芯片无法调用 cuBLAS/cuDNN 的问题。
SGLang融合算子层：SGLang 的融合算子（SiluAndMul、RMSNorm、RotaryEmbedding 等）依赖 NVIDIA 专属 sgl_kernel，非 NVIDIA 芯片无法执行。插件通过 HookRegistry.AROUND 拦截融合算子 dispatch，路由至与 vLLM-Plugin-FL 对齐的调度系统，采用三级 fallback：优先使用 FlagGems Triton kernel（跨芯片通用），其次尝试芯片厂商 native kernel（针对性优化），最终回退至 PyTorch 参考实现（功能兜底）。
分布式通信层：SGLang 多卡推理依赖 NCCL。插件通过 hook 拦截通信操作，注入 CommunicatorFL 将通信路由至 FlagCX 跨芯通信抽象层，底层适配各芯片原生通信库。

芯片厂商接入

两种插件采用一致的芯片厂商接入方式：实现一个 Backend 子类（含硬件检测和算子实现），编写 register_ops.py 声明算子覆盖范围，并在 platform.py 中添加一行通信后端映射。厂商目录放置后由插件自动发现加载，同一套后端实现可同时用于 vLLM-Plugin-FL 和 SGLang-Plugin-FL，无需修改插件源码。

精度评测：核心能力与原生版本对齐

经 GPQA Diamond 和 MuSR 等权威评测集验证，FlagOS 适配后的 GLM-5.2 在国产芯片上的推理精度与英伟达原生高度接近。本次评测以英伟达原生作为精度基线，在统一测试环境下进行交叉验证：

评测说明：本结果仅用于跨芯适配精度对齐。由于评测代码和环境为实验室内部环境，并不代表智谱模型官方性能。评测结果仅反映"芯片 + FlagOS 软件栈"组合的表现，非纯硬件对比。

Part.02

开发者速用指南

FlagOS 社区已完成 GLM-5.2 的跨芯适配，开发者可选择 vLLM-Plugin-FL 或 SGLang-Plugin-FL 进行部署。两种方式均通过 FlagGems 算子库实现跨芯片推理，安装后即装即用。

方式一：vLLM-Plugin-FL 部署

目前支持平头哥、沐曦和海光芯片。

快速安装

# 1. 安装 vLLM v0.20.2 or vLLM v0.13.0pip install vllm==0.20.2
# 2. 安装 vllm-plugin-FLgit clone https://github.com/flagos-ai/vllm-plugin-FLcd vllm-plugin-FLpip install --no-build-isolation -e .
# 3. 安装 FlagGems 算子库git clone https://github.com/flagos-ai/FlagGemscd FlagGems && git checkout v5.0.0pip install --no-build-isolation -e .
# 4. (可选) 安装 FlagTree 跨芯编译器python3 -m pip uninstall -y tritonpython3 -m pip install flagtree==0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple
# 5. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX

运行推理

# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2
# 6. 启动 vLLM 推理服务from vllm import LLM, SamplingParamsprompts = ["请介绍下众智FlagOS 2.1的新功能"]sampling_params = SamplingParams(max_tokens=10, temperature=0.0)llm = LLM(model="zai-org/GLM-5.2",           max_num_batched_tokens=16384,          max_num_seqs=2048)outputs = llm.generate(prompts, sampling_params)for output in outputs:    print(f"Prompt: {output.prompt!r}")    print(f"Generated: {output.outputs[0].text!r}")

方式二：SGLang-Plugin-FL 部署

目前支持摩尔线程芯片。

快速安装

# 1. 安装 SGLangpip install "sglang[all]==0.5.11"
# 2. 安装 FlagGems 算子库（v5.3.0）git clone https://github.com/flagos-ai/FlagGemscd FlagGems && git checkout tags/v5.3.0 && pip install .
# 3. 安装 SGLang-Plugin-FLgit clone https://github.com/flagos-ai/sglang-plugin-FLcd sglang-plugin-FL && pip install .
# 4. (可选) 安装 FlagCX 跨芯通信库# 详见 https://github.com/flagos-ai/FlagCX

运行推理

# 5. 下载 GLM-5.2 模型# 魔搭下载pip install modelscopemodelscope download ZhipuAI/GLM-5.2# 或 HuggingFace 下载huggingface-cli download zai-org/GLM-5.2
# 6. 启动 SGLang 推理服务（SGLang-Plugin-FL 自动加载）python -m sglang.launch_server \  --model zai-org/GLM-5.2 \  --tp 8 \  --trust-remote-code
# 7. 发送推理请求curl http://localhost:30000/generate \  -H "Content-Type: application/json" \  -d '{    "text": "请介绍下众智FlagOS 2.1的新功能",    "sampling_params": {"temperature": 0, "max_new_tokens": 256}  }'

方式三：模型镜像直接下载

用户也可以直接拉取 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本，开箱即用、无需迁移。

魔搭平台

HuggingFace 平台

Part.03

FlagOS 2.1 技术底座：

面向 AI Agent 时代的系统软件基石

FlagOS 2.1 也于近期发布，它是北京智源人工智能研究院联合北大、清华、中科院计算所等科研机构，以及十多家芯片厂商、操作系统与服务器厂商共同打造的面向 AI Agent 时代的多芯片系统软件栈。其核心架构分四层：多领域算子库（FlagGems 及 6 大领域库）→ 跨芯编译器（FlagTree）→ 跨芯通信库（FlagCX）→ 多框架插件体系，向上通过 AI Agent 工具链（KernelGen / FlagScale Agent / FlagRelease）实现自动化的跨芯适配、性能优化与版本发布。

算子层：从大模型专用走向全领域覆盖

FlagGems 是 FlagOS 核心高性能算子库，已拥有 510+ 算子、原生支持近 20 家 AI 芯片，并已进入 PyTorch 基金会生态。针对 vLLM 推理场景推出的 FlagGems-vLLM 融合算子库已兼容 75 个 vLLM 融合算子，DeepSeek V4 算子全覆盖，部分算子性能大幅超越原生实现（FP8 MatMul 提升 2.47 倍，Sparse Attention 提升 1.65 倍，Hadamard Transform 提升 1.89 倍）。同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。

编译层：FlagTree 三阶段统一，面向 Agent 可编程

FlagTree 是面向多 AI 芯片的跨芯编译器，分三阶段演进：① 灵活接入层——已支持 14 家厂商、23 种 AI 芯片（Q2 新增阿里达摩院、辉羲智能、ARM 等，通过 FlagTree-CPU 首次支持 Arm64）；② Triton-TLE 语言扩展——让开发者编写高性能算子，重点算子在多种芯片上超越原生 C 语言实现（如 MoeAlignBlockSize 加速 4.06x、FlashQLA 加速 7.10x、FFT 加速 38.67x 等）；③ 中间表示 FLIR——首批支持 3 种架构、76 个原语、103 个算子，让 Agent 可以在结构化优化空间中高效搜索。

Agent 工具链：自动生成、自动优化、自动迁移

KernelGen：AI-Native 算子自动生成工具，支持"生成一次、自动优化、多芯片运行"，已支持 7 款芯片的算子自动生成。在 KernelGenBench（首个多来源多芯片算子生成评测基准）中，Level-1/2/3 任务正确率达 74.1%/92.9%/87.8%，显著超越其他生成方案。
FlagScale Agent：AI Infra 领域专用智能体，通过 16+ 领域 Skill 和 12 个运行时 Guard 实现约束驱动的模型迁移、框架升级与精度对齐。在训练任务从英伟达向国产集群的自动迁移中，以稳定配置跑满 100 步实现双平台完全收敛（final diff 0.12%），远超通用 Agent 的表现。
FlagRelease：自动化模型跨芯迁移与发版平台，已实现 10+ 款芯片上数十个开源模型的版本发布，覆盖 HuggingFace 与魔搭社区，并提供 Express 优化版本（如 Qwen3.6-27B 在沐曦上相对原生性能达 110%）。
FlagCICD：多芯片持续集成与交付平台，管理多元芯片的构建、测试与质量验证，解决芯片 × 驱动 × SDK 的版本矩阵难题。

插件体系：多框架、多芯片接入

FlagOS 已构建完整的跨芯插件体系，覆盖推理、训练、强化学习全场景，所有插件遵循"零侵入"设计原则，实现跨芯发行、跨芯接入、跨芯运行时：

vLLM-Plugin-FL / SGLang-Plugin-FL：推理插件，已支持华为昇腾、海光、摩尔线程、沐曦、平头哥、天数智芯、昆仑芯、燧原、英伟达等芯片
Megatron-LM-FL / TransformerEngine-FL：训练插件，已与上游核心版本同步
PyTorch-Plugin-FL：基础框架插件，支持 FlagOS 与 Vendor 后端灵活选择
VeRL-FL：强化学习插件（PR 已合入 VeRL 主仓），支持多芯片 RL 训练

计算架构延伸：从云端到端侧，从经典到量子

FlagTree-CPU：首个 Arm64 CPU 后端，通过 Triton-TLE 扩展和 NEON/SVE2 指令级优化，在 ARM 平台上 RMSNorm 相比 ATen 实现提升 150%、Flash-Attention Decode 提升 9 倍。
FlagQuantum：首个在量子模拟、可微分编程、硬件无关及多卡扩展四大领域提供原生支持的量智融合框架，支持英伟达、海光、摩尔线程等 AI 芯片及夸父、本源、IBM 等真实量子硬件。

Part.04

开源共建：

FlagOS 持续做开发者的"跨芯适配后盾"

当下，"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点，打破硬件生态隔离、让大模型在不同算力平台高效低成本运行，是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因，始终以开发者为中心，通过全栈开源的跨芯系统软件栈，把复杂的"M×N"硬件适配问题降维为"M+N"，做每一位开发者最可靠的跨芯适配后盾。

全栈开源无保留，把技术主动权交给开发者

目前，FlagOS 已形成完整的开源技术体系，所有核心组件均已开源在 GitHub，同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践，开发者可自由获取、深度定制：

核心基础软件： FlagGems 通用大模型算子库、FlagTree 跨芯 AI 编译器、FlagScale 训练推理并行框架、FlagCX 跨芯通信库，覆盖算子开发、编译优化、并行计算、跨芯片通信全链路
跨芯插件体系： vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、TransformerEngine-FL、PyTorch-Plugin-FL、VeRL-FL，覆盖推理、训练、强化学习全场景
AI Agent 时代工具： KernelGen 算子自动生成工具、FlagScale Agent 领域专用智能体、FlagRelease 自动迁移发版平台，以及 FlagOS Skills（10+ 种技能覆盖模型适配、算子生成、性能调优等场景）

多路径参与共建，全层级开发者均可入局

我们为不同技术方向、不同经验层级的开发者，设计了低门槛、多路径的共建方式，无论你是 AI 开发新手，还是深耕系统软件的资深专家，都能在 FlagOS 社区找到自己的位置。

新手友好型参与： 可在对应仓库提交 Issue 反馈 bug、优化建议，或是补充完善文档、撰写入门教程与最佳实践
深度技术共建： 开发者可直接参与 FlagGems 算子开发与优化（新增算子 / 性能调优 / 新芯片后端支持）、FlagTree 编译器后端扩展等核心模块
生态工具贡献： 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能，帮助更多开发者通过自然语言完成芯片适配、模型部署等操作

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

从安装到精通，Ryzen AI 端侧部署全流程复盘

本文复盘 Ryzen AI 端侧部署全流程，涵盖驱动配置、Ollama 环境变量调优及 LM Studio 可视化设置。通过实战案例展示 Strix Halo 架构在离线代码重构与长文档处理中的优势，助开发者掌握本地大模型高效运行技巧，实现隐私安全与低延迟的 AI 应用落地。

AMD开发者中国社区

不只是聊天，Ryzen AI 在数据分析中的本地化应用

本文深入探讨 Ryzen AI 在数据分析中的本地化应用。借助 Strix Halo 架构与 Radeon GPU，用户可利用 Ollama 等工具离线处理敏感财务 CSV 数据，生成 Python 代码或 Excel 公式。这种方案在保障数据隐私安全的同时，大幅提升分析效率，是财务与运营人员的理想选择。