异构协同,算力重构:CPU+GPU架构下的AI推理优化
摘要:异构协同优化将成为AI推理新趋势 展菲在技术博客中指出,当前AI推理正面临从GPU单点优化向系统级异构协同优化的范式转变。传统"GPU决定AI能力"的认知已被实践验证存在局限,实际推理流程包含CPU预处理、GPU计算和CPU后处理等多个环节,形成"CPU-GPU-CPU-Runtime"的完整链路。随着大模型应用场景复杂化,特别是长上下文、MoE架构和Agent系统的普及,KV Cache管

大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
引言
过去几年,AI 基础设施领域有一个非常普遍的认知:
GPU决定AI能力
于是整个行业的关注点几乎都集中在:
更强GPU
更大显存
更高带宽
演进之路是:
V100
A100
H100
B200
GB200
很多企业建设 AI 平台时,最先关注的往往也是:
买多少GPU
但随着大模型逐渐进入生产环境,一个越来越现实的问题开始出现:
GPU越来越强
推理效率却没有同步提升
很多团队会发现:
GPU利用率只有30%
~50%
而与此同时:
CPU已经满载
甚至出现的现象是:
GPU等待CPU
于是行业开始意识到:
AI推理的瓶颈,已经不再只是GPU。
而是:
CPU
+
GPU
+
Memory
+
Network
+
Runtime
共同构成的系统问题,换句话说:
未来AI推理优化,本质上是一场异构协同优化。
而不是单纯的 GPU 优化。
一、为什么GPU越来越强,推理却没有线性增长
很多人理想中的推理过程是:
Prompt
↓
GPU
↓
Answer
似乎 GPU 就完成了全部工作,但真实系统里实际上是:
Request
↓
CPU解析
↓
Token预处理
↓
GPU推理
↓
CPU后处理
↓
返回结果
例如:
tokens = tokenizer.encode(prompt)
gpu.forward(tokens)
result = tokenizer.decode(output)
这里:
Tokenizer
本身就运行在 CPU,而且随着上下文越来越长:
32K
128K
1M Context
CPU 开销也越来越大,因此很多场景下:
GPU不是瓶颈
CPU才是瓶颈
二、推理系统到底在消耗什么资源
很多人认为:
推理
=
矩阵计算
实际上现代 AI 推理包含四部分。
第一部分
Pre-processing
例如:
tokenizer.encode()
prompt.build()
template.render()
全部由 CPU 完成。
第二部分
Inference
例如:
attention()
matmul()
ffn()
主要由 GPU 执行。
第三部分
Post-processing
例如:
tokenizer.decode()
json.parse()
response.format()
依然属于 CPU 工作。
第四部分
Runtime Scheduling
例如:
queue.schedule()
batch.merge()
cache.route()
同样由 CPU 控制,所以真正的推理链路其实是:
CPU
↓
GPU
↓
CPU
↓
Runtime
而不是:
GPU
↓
GPU
↓
GPU
三、为什么CPU开始重新变得重要
训练时代:
GPU负责99%
CPU更多是辅助角色,但Agent时代出现以后:
任务复杂度
远远超过:
模型复杂度
例如,一个企业Agent收到请求:
分析本月销售情况
实际执行流程可能是:
crm.query()
erp.query()
report.build()
llm.reason()
email.send()
这里真正使用 GPU 的时间可能只有:
llm.reason()
其余大量时间消耗在:
IO
调度
缓存
状态管理
这些全部属于:
CPU领域
于是:
未来Agent越多,CPU越重要。
四、KV Cache让CPU和GPU重新绑定
长上下文出现以后,行业开始遇到新的问题:
KV Cache越来越大
例如:
8K
32K
128K
1M
上下文增长时:
KV Cache
也同步增长,很多时候:
显存根本装不下
于是开始出现:
CPU Memory
+
GPU Memory
协同管理模式,例如:
hot_cache -> GPU
cold_cache -> CPU
当访问历史内容时:
load_to_gpu()
动态迁移,这本质上就是:
Memory Tiering
即:
分层内存架构
未来越来越重要。
五、PagedAttention为什么改变行业
过去:
KV Cache
通常连续存储,结果导致:
显存碎片
越来越严重,于是出现:
PagedAttention
核心思想类似:
操作系统分页机制
例如:
Page1
Page2
Page3
按需加载,这样:
GPU负责热点数据
CPU负责冷数据
实现:
CPU + GPU
协同管理上下文,很多人认为:
PagedAttention
只是推理优化,其实背后反映的是:
AI系统越来越像操作系统。
六、MoE为什么天然适合异构架构
Dense Model:
全部参数参与计算
而:
MoE
则是:
只激活部分专家
例如:
router()
expert_1()
expert_7()
这里:
Router
通常属于:
CPU调度逻辑
而:
Expert
属于:
GPU计算逻辑
形成:
CPU负责决策
GPU负责执行
未来超大规模 MoE 系统,越来越像:
分布式调度系统
而不只是:
神经网络
七、Agent时代最重要的是Runtime协同
过去推理:
一次请求
一次响应
现在推理变成:
持续运行
例如:
while True:
observe()
reason()
act()
这时候:
CPU负责事件循环
例如:
event_loop.run()
GPU负责:
model.forward()
两者不断交替,形成:
CPU ↔ GPU
持续协同模式,这也是为什么:
Agent Runtime
开始成为行业热点。
八、未来推理优化将从GPU优化变成系统优化
过去优化思路:
优化Kernel
优化CUDA
优化Attention
未来优化思路:
优化调度
优化缓存
优化网络
优化内存
例如:
scheduler.batch()
memory.pool()
cache.prefetch()
很多时候:
减少一次数据搬运
带来的收益甚至超过:
提升10% FLOPS
因为:
系统效率
已经开始超过:
计算效率
成为主要瓶颈。
九、未来数据中心会从GPU中心转向异构中心
过去数据中心架构:
CPU
↓
GPU Cluster
未来可能变成:
CPU
+
GPU
+
DPU
+
NPU
+
HBM Pool
例如:
CPU 负责:
控制流
GPU 负责:
计算流
DPU 负责:
网络流
NPU 负责:
边缘推理
形成:
Heterogeneous Fabric
即:
异构算力网络
未来比拼的已经不是:
单个GPU
而是:
整个系统协同效率
十、异构协同正在成为AI基础设施的新范式
回顾AI发展路径。
第一阶段
Compute Era
关注:
GPU有多强
第二阶段
Model Era
关注:
模型有多强
第三阶段
Agent Era
关注:
系统有多强
因为未来真正限制AI的,越来越不是:
算不出来
而是:
调不起来
不是:
GPU不够
而是:
资源协同效率不够
总结
很多人还在讨论:
下一代GPU
但未来几年,行业最重要的问题可能已经变成:
CPU如何协同GPU?
因为现代AI推理已经不再是:
一次矩阵计算
而是:
推理
+
缓存
+
调度
+
通信
+
状态管理
组成的复杂系统,未来真正先进的AI平台,比拼的不会只是:
FLOPS
而是:
CPU调度能力
GPU计算能力
Memory管理能力
Runtime协同能力
共同构成的整体效率,从这个角度看,
异构协同不是推理优化的一部分。
而是:
智能体时代 AI 基础设施的核心设计原则。
未来的 AI 数据中心,本质上不再是一堆 GPU。
而是一套持续运行、动态协同、自主调度的智能计算系统。
更多推荐



所有评论(0)