DeepSeek发布节后首篇论文，Agentic LLM推理新突破

派派百晓生

366人浏览 · 2026-03-04 16:37:18

派派百晓生 · 2026-03-04 16:37:18 发布

对比，Anthropic指控&防范 DeepSeek、Moonshot AI和 MiniMax 的 工业规模的蒸馏攻击。

DeepSeek & 清北发表了春节后的首篇Paper，公开了硬核技术：DualPath，打破Agentic LLM推理中的存储带宽瓶颈。近期，谷歌发表了2篇Multi-Agent协作学习新论文

大语言模型正从单轮对话工具进化为多轮智能体系统——能够自主规划、调用工具、与环境交互完成复杂任务。这种范式转变带来了全新的系统挑战：

Agentic工作负载的典型特征：

超长上下文：单次轨迹可达数十万token（如代码助手、自动化任务代理）
高KV-Cache命中率：由于多轮交互中上下文高度复用，命中率通常≥95%
短追加模式：每轮仅追加数百token，但需加载完整历史KV-Cache

Agent轨迹示意

这导致系统性能瓶颈从计算转向I/O——GPU大部分时间都在等待KV-Cache从存储加载，而非执行计算。

2. 现有架构的根本缺陷：存储网络带宽失衡

现代LLM推理系统普遍采用Prefill-Decode (P/D) 分离架构：

**Prefill引擎(PE)**：负责计算密集型预填充，需从存储加载KV-Cache
**Decode引擎(DE)**：负责自回归生成，存储NIC基本空闲

现有瓶颈 vs DualPath

核心问题：Prefill端的存储NIC带宽被完全占满（100%利用率），而Decode端NIC利用率接近0。这种不对称饱和导致：

系统吞吐量受限于Prefill端存储带宽
大量可用带宽资源被浪费
即使增加Prefill节点，成本高昂且难以扩展

3. DualPath核心设计：双路径KV-Cache加载

3.1 架构创新

DualPath打破传统"存储→Prefill"的单一路径，引入双路径加载机制：

路径	数据流	适用场景
PE Read Path	存储 → PE Buffer → PE GPU → DE Buffer	传统路径
DE Read Path	存储 → DE Buffer → PE GPU (RDMA) → DE Buffer	新路径

双路径加载示意

关键洞察：利用Decode引擎闲置的存储NIC带宽加载KV-Cache，再通过高速RDMA计算网络传输给Prefill引擎。这样聚合了所有引擎的存储带宽，消除单点瓶颈。

3.2 技术挑战与解决方案

实现这一设计面临三大挑战：

挑战	DualPath解决方案
细粒度数据传输	层-wise预填充 + Layer Block/Full Block混合布局，实现流式传输与计算重叠
流量隔离	CNIC-Centric流量管理：所有GPU数据流经过计算NIC，利用InfiniBand虚拟通道(VL)QoS隔离KV-Cache流量与模型通信
动态负载均衡	双层调度算法（Inter-engine + Intra-engine），实时平衡NIC流量与GPU计算

Inter-engine PE调度

Intra-engine调度

4. 理论分析：无瓶颈运行范围

DualPath通过严格的数学分析证明了架构的可行性。在标准配置下（每节点8 GPU，1个存储NIC），系统可在广泛的P/D比例范围内无瓶颈运行：

这覆盖了绝大多数实际生产配置，确保：

存储NIC带宽完全利用
计算NIC和DRAM不构成瓶颈
网络无拥塞

5. 实验结果：显著性能提升

5.1 离线推理（RL训练Rollout场景）

在三个模型上的测试显示一致的性能提升：

模型	配置	相比Baseline提升
DeepSeek-V3.2 660B	2P4D	1.87×
DeepSeek 27B (实验模型)	1P1D	1.78×
Qwen2.5-32B	1P2D	类似趋势

离线推理性能对比

关键发现：

批次越大、上下文越长，DualPath优势越明显
短追加/短生成场景下提升最大（符合Agent特性）
不同P/D比例下均保持1.64×平均加速

5.2 在线服务场景

在保持TTFT≤4s、TPOT≤50ms的SLO下：

模型	吞吐量提升
DS 27B	1.67×
DS 660B	2.25×

在线服务延迟指标

DualPath在提升吞吐的同时，保持了与Baseline相近的TTST（第二token时间）和TPOT（每token时间），证明未引入额外解码开销。

5.3 大规模扩展性验证

在1,152 GPU规模下的测试：

离线推理：JCT 3,201s（接近线性扩展）
在线服务：22×吞吐扩展，延迟保持稳定

大规模离线推理指标

6. 消融实验：各组件贡献

逐步添加技术组件的效果（DS 660B, 64K上下文）：

消融实验结果

组件	JCT降低
Layerwise Prefill	17.21%
+ Dual-Path Loading	38.19%（累计）
+ 调度算法	45.62%（累计）

负载均衡效果：

存储NIC流量均衡比：从1.53（轮询）→ 1.18（DualPath调度）
Attention层执行时间Max/Avg比：低至1.06，显著减少GPU空闲气泡

存储NIC负载均衡

从0到1！大模型(LLM)最全学习路线图，建议收藏！

想入门大模型(LLM)却不知道从哪开始? 我根据最新的技术栈和我自己的经历&理解，帮大家整理了一份LLM学习路线图，涵盖从理论基础到落地应用的全流程!拒绝焦虑，按图索骥~~

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent是通往AGI的必经之路吗？

AI Agent的概念最早出自人工智能经典教材《人工智能：一种现代方法》，定义为能在环境中自主感知、自主决策、自主行动，最终实现特定目标的智能实体。我们可以把它类比成一个虚拟的「数字员工」：和普通的工具软件不一样，你不需要告诉它每一步该做什么，只需要告诉它最终目标，它就能自己想办法完成。一个完整的AI Agent必须包含5个核心模块，模块之间的交互逻辑如下图所示：fill:#333;importa

龙虾开发者社区

多模态AI Agent的崛起：文本、图像、音频的统一理解

在我们深入探讨多模态AI Agent之前，让我们先从一个生动的类比开始。想象一下，你正在参加一个鸡尾酒会，周围是嘈杂的谈话声、酒杯的碰撞声，还有各种各样的人。你需要同时处理多种信息：听别人说话（音频）、观察他们的表情和手势（视觉）、理解他们的语言内容（文本），然后做出适当的回应。这就是人类每天都在进行的多模态交互。现在，让我们将这个场景映射到人工智能领域。传统的AI系统通常只能处理单一类型的数据：

龙虾开发者社区

企业AI Agent的治理框架

随着人工智能技术的快速发展，AI Agent（智能代理）正从实验室走向企业应用的前沿。这些"智能员工"能够自主执行任务、做出决策并与环境交互，为企业带来了前所未有的效率提升和创新机会。然而，伴随着这些机遇而来的是一系列严峻的挑战：如何确保AI Agent的行为符合企业价值观？如何管控它们带来的风险？如何保证决策的可解释性和透明性？如何在快速迭代的同时确保系统的稳定性和安全性？这些问题并非遥不可及。