对比,Anthropic指控&防范 DeepSeek、Moonshot AI和 MiniMax 的 工业规模的蒸馏攻击。 

DeepSeek & 清北发表了春节后的首篇Paper,公开了硬核技术:DualPath, 打破Agentic LLM推理中的存储带宽瓶颈。近期,谷歌发表了2篇Multi-Agent协作学习新论文

大语言模型正从单轮对话工具进化为多轮智能体系统——能够自主规划、调用工具、与环境交互完成复杂任务。这种范式转变带来了全新的系统挑战:

Agentic工作负载的典型特征

  • 超长上下文:单次轨迹可达数十万token(如代码助手、自动化任务代理)

  • 高KV-Cache命中率:由于多轮交互中上下文高度复用,命中率通常≥95%

  • 短追加模式:每轮仅追加数百token,但需加载完整历史KV-Cache

Agent轨迹示意

Agent轨迹示意

这导致系统性能瓶颈从计算转向I/O——GPU大部分时间都在等待KV-Cache从存储加载,而非执行计算。

2. 现有架构的根本缺陷:存储网络带宽失衡

现代LLM推理系统普遍采用Prefill-Decode (P/D) 分离架构

  • **Prefill引擎(PE)**:负责计算密集型预填充,需从存储加载KV-Cache

  • **Decode引擎(DE)**:负责自回归生成,存储NIC基本空闲

现有瓶颈 vs DualPath

现有瓶颈 vs DualPath

核心问题:Prefill端的存储NIC带宽被完全占满(100%利用率),而Decode端NIC利用率接近0。这种不对称饱和导致:

  • 系统吞吐量受限于Prefill端存储带宽

  • 大量可用带宽资源被浪费

  • 即使增加Prefill节点,成本高昂且难以扩展

3. DualPath核心设计:双路径KV-Cache加载

3.1 架构创新

DualPath打破传统"存储→Prefill"的单一路径,引入双路径加载机制

路径

数据流

适用场景

PE Read Path

存储 → PE Buffer → PE GPU → DE Buffer

传统路径

DE Read Path

存储 → DE Buffer → PE GPU (RDMA) → DE Buffer

新路径

双路径加载示意

双路径加载示意

关键洞察:利用Decode引擎闲置的存储NIC带宽加载KV-Cache,再通过高速RDMA计算网络传输给Prefill引擎。这样聚合了所有引擎的存储带宽,消除单点瓶颈。

3.2 技术挑战与解决方案

实现这一设计面临三大挑战:

挑战

DualPath解决方案

细粒度数据传输

层-wise预填充 + Layer Block/Full Block混合布局,实现流式传输与计算重叠

流量隔离 CNIC-Centric流量管理

:所有GPU数据流经过计算NIC,利用InfiniBand虚拟通道(VL)QoS隔离KV-Cache流量与模型通信

动态负载均衡

双层调度算法(Inter-engine + Intra-engine),实时平衡NIC流量与GPU计算

Inter-engine PE调度

Inter-engine PE调度

Intra-engine调度

Intra-engine调度

4. 理论分析:无瓶颈运行范围

DualPath通过严格的数学分析证明了架构的可行性。在标准配置下(每节点8 GPU,1个存储NIC),系统可在广泛的P/D比例范围内无瓶颈运行:

这覆盖了绝大多数实际生产配置,确保:

  • 存储NIC带宽完全利用

  • 计算NIC和DRAM不构成瓶颈

  • 网络无拥塞

5. 实验结果:显著性能提升

5.1 离线推理(RL训练Rollout场景)

在三个模型上的测试显示一致的性能提升:

模型

配置

相比Baseline提升

DeepSeek-V3.2 660B

2P4D

1.87×

DeepSeek 27B (实验模型)

1P1D

1.78×

Qwen2.5-32B

1P2D

类似趋势

离线推理性能对比

离线推理性能对比

关键发现

  • 批次越大、上下文越长,DualPath优势越明显

  • 短追加/短生成场景下提升最大(符合Agent特性)

  • 不同P/D比例下均保持1.64×平均加速

5.2 在线服务场景

在保持TTFT≤4s、TPOT≤50ms的SLO下:

模型

吞吐量提升

DS 27B

1.67×

DS 660B

2.25×

在线服务延迟指标

在线服务延迟指标

DualPath在提升吞吐的同时,保持了与Baseline相近的TTST(第二token时间)和TPOT(每token时间),证明未引入额外解码开销。

5.3 大规模扩展性验证

1,152 GPU规模下的测试:

  • 离线推理:JCT 3,201s(接近线性扩展)

  • 在线服务:22×吞吐扩展,延迟保持稳定

大规模离线推理指标

大规模离线推理指标

6. 消融实验:各组件贡献

逐步添加技术组件的效果(DS 660B, 64K上下文):

消融实验结果

消融实验结果

组件

JCT降低

Layerwise Prefill

17.21%

+ Dual-Path Loading

38.19%(累计)

+ 调度算法

**45.62%**(累计)

负载均衡效果

  • 存储NIC流量均衡比:从1.53(轮询)→ 1.18(DualPath调度)

  • Attention层执行时间Max/Avg比:低至1.06,显著减少GPU空闲气泡

存储NIC负载均衡

存储NIC负载均衡

从0到1!大模型(LLM)最全学习路线图,建议收藏!

想入门大模型(LLM)却不知道从哪开始? 我根据最新的技术栈和我自己的经历&理解,帮大家整理了一份LLM学习路线图,涵盖从理论基础到落地应用的全流程!拒绝焦虑,按图索骥~~

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐