LongCat-Flash 推理引擎深度优化：美团与 SGLang 联手突破智能体模型部署瓶颈

2025年09月11日，美团技术团队正式对外披露其开源大模型 LongCat-Flash-Chat 的推理优化方案。该方案通过与 SGLang 团队深度合作，基于混合专家模型（MoE）架构创新与系统级优化，实现了5600亿参数模型在智能体场景下的高效部署，为业界树立了大模型推理性能与成本控制的新标杆。### 开源模型与技术合作背景作为美团 LongCat 系列的最新成果，LongCat-Fl...

滑思眉Philip

886人浏览 · 2025-10-28 14:34:32

滑思眉Philip · 2025-10-28 14:34:32 发布

LongCat-Flash 推理引擎深度优化：美团与 SGLang 联手突破智能体模型部署瓶颈

【免费下载链接】LongCat-Flash-Chat 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Chat

2025年09月11日，美团技术团队正式对外披露其开源大模型 LongCat-Flash-Chat 的推理优化方案。该方案通过与 SGLang 团队深度合作，基于混合专家模型（MoE）架构创新与系统级优化，实现了5600亿参数模型在智能体场景下的高效部署，为业界树立了大模型推理性能与成本控制的新标杆。

开源模型与技术合作背景

作为美团 LongCat 系列的最新成果，LongCat-Flash-Chat 自9月1日开源以来便引发行业关注。这款采用 Shortcut-Connected MoE（ScMoE）架构的模型，通过512个前馈网络专家与256个零计算专家的动态协作，将每Token激活参数控制在186亿至313亿区间（平均270亿），在多项智能体任务基准测试中展现出与主流大模型相当的性能。为解决MoE模型部署中的效率难题，美团M17团队联合专注于推理系统优化的SGLang团队，共同开发了这套针对性解决方案，并通过技术博客形式分享实践经验。

模型-系统协同设计的核心挑战

智能体应用场景对模型推理提出了双重挑战：ReACT模式的多轮对话特性要求极低的首包响应时间（TTFT），而长序列上下文处理则需要高效的显存管理。传统MoE模型在预填充（Prefill）阶段因专家选择机制导致通信量激增，解码（Decode）阶段又面临计算密度与通信开销的平衡难题。以H800 GPU为例，稠密矩阵乘法需500以上输入规模才能达到计算效率临界点，而MoE模型（如256专家激活8个）则需16000输入规模，迫使系统采用大规模专家并行部署，这又引发新的跨节点通信瓶颈。

突破性优化架构解析

PD分离架构与分层传输机制

针对预填充与解码阶段的差异化需求，团队设计了PD分离（PD-Disaggregated）架构，通过分层传输（Layer-wise Transmission）技术实现计算资源的动态调度。在高QPS负载场景下，该机制将首包响应时间压缩40%，尤其适合智能体实时交互场景。其核心创新在于将模型计算流按层拆解，使关键路径计算与非关键路径传输并行执行，有效隐藏通信延迟。

SBO单批次重叠执行技术

为突破传统TBO（双批次重叠）在小批量场景下的局限性，团队创新研发SBO（Single Batch Overlap）四阶段流水线：

基础准备阶段：独立执行多头潜在注意力（MLA）模块，为后续计算提供输入张量
通信计算重叠阶段：all-to-all数据分发与密集FFN、QKV投影并行执行，通过注意力计算拆分策略缓解通信压力
专家计算阶段：MoE GEMM在宽专家并行架构下独立执行，充分利用分布式算力
结果整合阶段：核心注意力计算与all-to-all合并操作重叠，实现通信与计算的无缝衔接

如上图所示，SBO架构通过精细的模块拆分与时序编排，将原本串行的通信与计算过程转化为流水线作业。这种设计使单批次处理即可实现30%以上的效率提升，完美适配智能体应用的实时性要求，同时避免了传统方案中吞吐量与延迟的冲突。

大规模专家并行部署策略

为释放KV缓存所需显存空间，团队采用EP128（128路专家并行）部署策略：将541GB FP8格式模型参数分散到128张GPU，使单卡专家参数占比从EP16配置的42.2%降至5.3%，显著提升缓存容量。同时，宽专家并行架构使MoE计算阶段延迟降低60%，配合DeepEP分布式通信框架及零专家本地计算机制，进一步优化跨节点数据传输效率。

多步重叠调度器优化

针对LongCat-Flash前向传播耗时短导致的GPU利用率问题，团队开发多步重叠调度器，通过单次迭代启动多个前向kernel，将CPU调度开销完全隐藏于GPU计算过程。实测显示，该机制使GPU利用率维持在90%以上，有效解决了小batch场景下的算力浪费问题。

性能与成本优势验证

经过系统级优化，LongCat-Flash在标准H800集群上实现突破性性能：当输出速度达到100 tokens/s（TPOT=10ms）时，每百万Token生成成本仅5元（按H800每小时14元计费）。在智能体任务基准测试中，该模型展现出显著优势：

如上图所示，LongCat-Flash在ArenaHard-V2智能体评测中达到89.3%的胜率，MMLU-Pro知识测试得分78.6，τ2-Bench工具调用准确率91.2%，全面超越同参数规模模型。这些数据验证了模型-系统协同设计的有效性，为智能体应用提供了高性能且经济的解决方案。

部署指南与开源生态

美团技术团队提供了完整的部署方案，用户可通过SGLang框架快速启动模型：

环境准备：

pip install --upgrade pip
pip install uv
uv pip install "sglang[all]>=0.5.1.post3"

单机部署（8xH20-141G）：

python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 8

多机部署（16xH800-80G）：

python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 16 \
--nnodes 2 \
--node-rank $NODE_RANK \
--dist-init-addr $MASTER_IP:5000

多令牌预测（MTP）配置：添加--speculative-draft-model-path及相关参数可启用NEXTN推测解码算法，进一步提升生成速度。

技术价值与未来展望

LongCat-Flash的推理优化方案通过架构创新与工程实践的深度融合，成功突破了大模型"性能-效率-成本"的三角难题。其核心价值在于：一是提出ScMoE架构与SBO调度的协同设计，突破传统MoE模型的通信瓶颈；二是构建PD分离架构实现预填充/解码阶段的独立优化；三是通过大规模专家并行与零专家机制平衡显存与算力。未来，美团技术团队将持续优化推理引擎，并计划将相关技术回馈至SGLang开源社区，推动大模型部署技术的标准化与产业化。

该方案特别适用于智能客服、自动驾驶决策、工业控制等低延迟要求场景，为企业级AI应用提供了可复用的高性能部署范式。随着开源生态的完善，LongCat-Flash有望成为智能体系统开发的首选基础模型之一。

【免费下载链接】LongCat-Flash-Chat 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Chat