异构协同，算力重构：CPU+GPU架构下的AI推理优化

摘要：异构协同优化将成为AI推理新趋势展菲在技术博客中指出，当前AI推理正面临从GPU单点优化向系统级异构协同优化的范式转变。传统"GPU决定AI能力"的认知已被实践验证存在局限，实际推理流程包含CPU预处理、GPU计算和CPU后处理等多个环节，形成"CPU-GPU-CPU-Runtime"的完整链路。随着大模型应用场景复杂化，特别是长上下文、MoE架构和Agent系统的普及，KV Cache管

Swift社区

439人浏览 · 2026-06-06 14:41:29

Swift社区 · 2026-06-06 14:41:29 发布

在这里插入图片描述

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

引言

过去几年，AI 基础设施领域有一个非常普遍的认知：

GPU决定AI能力

于是整个行业的关注点几乎都集中在：

更强GPU
更大显存
更高带宽

演进之路是：

V100
A100
H100
B200
GB200

很多企业建设 AI 平台时，最先关注的往往也是：

买多少GPU

但随着大模型逐渐进入生产环境，一个越来越现实的问题开始出现：

GPU越来越强
推理效率却没有同步提升

很多团队会发现：

GPU利用率只有30%
~50%

而与此同时：

CPU已经满载

甚至出现的现象是：

GPU等待CPU

于是行业开始意识到：

AI推理的瓶颈，已经不再只是GPU。

而是：

CPU
+
GPU
+
Memory
+
Network
+
Runtime

共同构成的系统问题，换句话说：

未来AI推理优化，本质上是一场异构协同优化。

而不是单纯的 GPU 优化。

一、为什么GPU越来越强，推理却没有线性增长

很多人理想中的推理过程是：

Prompt
 ↓
GPU
 ↓
Answer

似乎 GPU 就完成了全部工作，但真实系统里实际上是：

Request
 ↓
CPU解析
 ↓
Token预处理
 ↓
GPU推理
 ↓
CPU后处理
 ↓
返回结果

例如：

tokens = tokenizer.encode(prompt)

gpu.forward(tokens)

result = tokenizer.decode(output)

这里：

Tokenizer

本身就运行在 CPU，而且随着上下文越来越长：

32K
128K
1M Context

CPU 开销也越来越大，因此很多场景下：

GPU不是瓶颈
CPU才是瓶颈

二、推理系统到底在消耗什么资源

很多人认为：

推理
=
矩阵计算

实际上现代 AI 推理包含四部分。

第一部分

Pre-processing

例如：

tokenizer.encode()

prompt.build()

template.render()

全部由 CPU 完成。

第二部分

Inference

例如：

attention()

matmul()

ffn()

主要由 GPU 执行。

第三部分

Post-processing

例如：

tokenizer.decode()

json.parse()

response.format()

依然属于 CPU 工作。

第四部分

Runtime Scheduling

例如：

queue.schedule()

batch.merge()

cache.route()

同样由 CPU 控制，所以真正的推理链路其实是：

CPU
 ↓
GPU
 ↓
CPU
 ↓
Runtime

而不是：

GPU
 ↓
GPU
 ↓
GPU

三、为什么CPU开始重新变得重要

训练时代：

GPU负责99%

CPU更多是辅助角色，但Agent时代出现以后：

任务复杂度

远远超过：

模型复杂度

例如，一个企业Agent收到请求：

分析本月销售情况

实际执行流程可能是：

crm.query()

erp.query()

report.build()

llm.reason()

email.send()

这里真正使用 GPU 的时间可能只有：

llm.reason()

其余大量时间消耗在：

IO
调度
缓存
状态管理

这些全部属于：

CPU领域

于是：

未来Agent越多，CPU越重要。

四、KV Cache让CPU和GPU重新绑定

长上下文出现以后，行业开始遇到新的问题：

KV Cache越来越大

例如：

8K
32K
128K
1M

上下文增长时：

KV Cache

也同步增长，很多时候：

显存根本装不下

于是开始出现：

CPU Memory
+
GPU Memory

协同管理模式，例如：

hot_cache -> GPU

cold_cache -> CPU

当访问历史内容时：

load_to_gpu()

动态迁移，这本质上就是：

Memory Tiering

即：

分层内存架构

未来越来越重要。

五、PagedAttention为什么改变行业

过去：

KV Cache

通常连续存储，结果导致：

显存碎片

越来越严重，于是出现：

PagedAttention

核心思想类似：

操作系统分页机制

例如：

Page1

Page2

Page3

按需加载，这样：

GPU负责热点数据
CPU负责冷数据

实现：

CPU + GPU

协同管理上下文，很多人认为：

PagedAttention

只是推理优化，其实背后反映的是：

AI系统越来越像操作系统。

六、MoE为什么天然适合异构架构

Dense Model：

全部参数参与计算

而：

MoE

则是：

只激活部分专家

例如：

router()

expert_1()

expert_7()

这里：

Router

通常属于：

CPU调度逻辑

而：

Expert

属于：

GPU计算逻辑

形成：

CPU负责决策

GPU负责执行

未来超大规模 MoE 系统，越来越像：

分布式调度系统

而不只是：

神经网络

七、Agent时代最重要的是Runtime协同

过去推理：

一次请求
一次响应

现在推理变成：

持续运行

例如：

while True:

    observe()

    reason()

    act()

这时候：

CPU负责事件循环

例如：

event_loop.run()

GPU负责：

model.forward()

两者不断交替，形成：

CPU ↔ GPU

持续协同模式，这也是为什么：

Agent Runtime

开始成为行业热点。

八、未来推理优化将从GPU优化变成系统优化

过去优化思路：

优化Kernel
优化CUDA
优化Attention

未来优化思路：

优化调度
优化缓存
优化网络
优化内存

例如：

scheduler.batch()

memory.pool()

cache.prefetch()

很多时候：

减少一次数据搬运

带来的收益甚至超过：

提升10% FLOPS

因为：

系统效率

已经开始超过：

计算效率

成为主要瓶颈。

九、未来数据中心会从GPU中心转向异构中心

过去数据中心架构：

CPU
 ↓
GPU Cluster

未来可能变成：

CPU
+
GPU
+
DPU
+
NPU
+
HBM Pool

例如：

CPU 负责：

控制流

GPU 负责：

计算流

DPU 负责：

网络流

NPU 负责：

边缘推理

形成：

Heterogeneous Fabric

即：

异构算力网络

未来比拼的已经不是：

单个GPU

而是：

整个系统协同效率

十、异构协同正在成为AI基础设施的新范式

回顾AI发展路径。

第一阶段

Compute Era

关注：

GPU有多强

第二阶段

Model Era

关注：

模型有多强

第三阶段

Agent Era

关注：

系统有多强

因为未来真正限制AI的，越来越不是：

算不出来

而是：

调不起来

不是：

GPU不够

而是：

资源协同效率不够

总结

很多人还在讨论：

下一代GPU

但未来几年，行业最重要的问题可能已经变成：

CPU如何协同GPU？

因为现代AI推理已经不再是：

一次矩阵计算

而是：

推理
+
缓存
+
调度
+
通信
+
状态管理

组成的复杂系统，未来真正先进的AI平台，比拼的不会只是：

FLOPS

而是：

CPU调度能力
GPU计算能力
Memory管理能力
Runtime协同能力

共同构成的整体效率，从这个角度看，

异构协同不是推理优化的一部分。

而是：

智能体时代 AI 基础设施的核心设计原则。

未来的 AI 数据中心，本质上不再是一堆 GPU。

而是一套持续运行、动态协同、自主调度的智能计算系统。

上海城市开发者社区

加入「COC·上海城市开发者社区」，成就更好的自己！

更多推荐

停止AI研发！Anthropic万字长文警告：AI“递归式自我改进”正在逼近

上海城市开发者社区

对话汤道生：腾讯 AI 不是赛马，元宝与混元搬进同一栋楼

上海城市开发者社区

鸿蒙 PC 多屏协同：架构解析 + 代码示例

上海城市开发者社区

所有评论(0)

查看更多评论

Swift社区

@qq_36478920

已为社区贡献251条内容

异构协同，算力重构：CPU+GPU架构下的AI推理优化

Swift社区

文章目录

引言

一、为什么GPU越来越强，推理却没有线性增长

二、推理系统到底在消耗什么资源

第一部分

第二部分

第三部分

第四部分

三、为什么CPU开始重新变得重要

四、KV Cache让CPU和GPU重新绑定

五、PagedAttention为什么改变行业

六、MoE为什么天然适合异构架构

七、Agent时代最重要的是Runtime协同

八、未来推理优化将从GPU优化变成系统优化

九、未来数据中心会从GPU中心转向异构中心

CPU 负责：

GPU 负责：

DPU 负责：

NPU 负责：

十、异构协同正在成为AI基础设施的新范式

第一阶段

第二阶段

第三阶段

总结

所有评论(0)

温馨提示：您尚未绑定手机号

Swift社区