50 TOPS 不是数字游戏:Strix Halo 三芯实测

最近拿到一台基于 AMD Strix Halo 平台的工程机,最吸引人的莫过于那颗标称 50 TOPS 算力的 NPU。很多宣传材料喜欢把"50 TOPS"挂在嘴边,仿佛这就是本地跑大模型的通关密码。但作为经常折腾本地大模型的玩家,我更关心的是:这 50 TOPS 在实际文本生成中到底能跑多快?CPU、GPU 和 NPU 这三颗芯,在面对 7B 和 14B 参数量的模型时,究竟谁才是主力?

为了搞清楚这个问题,我搭建了一个简单的测试环境,用 Ollama 和 LM Studio 分别调用不同的计算后端,进行了一组对照实验。

测试环境与模型选择

测试机器搭载 Strix Halo 架构处理器,集成 Radeon 8060S 显卡,内存统一为 32GB LPDDR5x。这种“三芯合一”的设计理论上是端侧 AI 的终极形态,但软件调度才是关键。

模型方面,我选择了两个具有代表性的开源模型:

  • Qwen2.5-7B-Instruct:轻量级,适合测试极限吞吐。
  • Qwen2.5-14B-Instruct:进阶级,更能体现大显存和高算力的优势。

这两个模型都进行了 INT4 量化,以适配端侧内存限制。测试指标非常直观:每秒生成的 Token 数(tokens/s),这是衡量本地大模型流畅度的核心指标。

第一轮:7B 模型的三方对决

首先上场的是 7B 模型。在这个量级下,三种计算单元的表现差异非常明显。

CPU 单核与多核模式

直接使用 CPU 运行是最“原始”的方式。在 Ollama 中不指定 GPU 卸载层数时,系统默认主要依赖 CPU。

ollama run qwen2.5:7b-instruct-q4_0

实测数据惨不忍睹,平均速度仅为 3.2 tokens/s。风扇狂转,机身明显发热。对于对话类应用来说,这个速度虽然勉强能读,但完全谈不上“流畅”,更别提实时交互了。

Radeon GPU 加速

接下来启用 GPU 加速。Strix Halo 集成的 Radeon 显卡拥有强大的 RDNA 3.5 架构,显存共享系统内存,带宽优势巨大。
在 Ollama 中设置 num_gpu 为最大层数后:

OLLAMA_NUM_GPU=99 ollama run qwen2.5:7b-instruct-q4_0

速度瞬间飙升到 48.5 tokens/s。这个数值已经远超人类阅读速度,生成过程几乎是“秒出”。此时观察任务管理器,GPU 占用率接近 100%,而 NPU 几乎处于空闲状态。这说明在当前的软件生态下,对于这种高吞吐需求的生成任务,GPU 依然是绝对的主力。

NPU 的尝试

最令人好奇的是 NPU 的表现。理论上 50 TOPS 的算力应该很猛,但在实际测试中,通过 LM Studio 尝试调用 NPU 后端时,速度约为 18.6 tokens/s
虽然比 CPU 快了不少,但远不及 GPU。原因在于目前的 NPU 驱动和推理引擎(如 DirectML 或 ONNX Runtime)针对连续自回归生成(Text Generation)的优化还不够成熟,尤其是在处理动态序列长度时,调度开销较大。NPU 目前更适合固定的、批处理的 AI 任务,比如视频会议背景虚化或图像超分,而不是这种需要频繁内存交换的文本生成。

第二轮:14B 模型的负载压力测试

当模型参数量翻倍到 14B 时,情况发生了一些微妙的变化。7B 模型还能让 GPU 游刃有余,但 14B 模型对显存带宽和计算密度提出了更高要求。

GPU 依然稳健

在 Radeon 显卡上运行 14B 模型,速度下降到了 26.3 tokens/s。虽然减半,但依然保持在非常流畅的区间。这得益于 Strix Halo 平台的大带宽内存,缓解了显存瓶颈。

NPU 的尴尬

切换到 NPU 后,14B 模型的推理速度进一步下滑至 9.4 tokens/s。此时延迟感开始变得明显,每说一句话需要等待一两秒。这表明随着模型复杂度增加,NPU 在当前的软件栈下并没有展现出线性增长的算力优势,反而受限于算子支持度和内存调度效率。

CPU 彻底掉队

CPU 运行 14B 模型的速度跌破了 1.5 tokens/s,基本失去了实用价值,只能用来做后台离线处理。

50 TOPS 的真实含义

经过这一轮实测,我们可以更理性地看待"50 TOPS"这个参数。

首先,TOPS 不等于 Token/s。NPU 的 50 TOPS 是在特定精度(通常是 INT8)和特定算子下的理论峰值,而大模型推理涉及大量的权重加载和非矩阵运算,实际效能会打折扣。

其次,场景决定胜负

  • 如果你追求极致的生成速度,比如写代码、长文创作,Radeon GPU 是目前 Strix Halo 平台上唯一的选择。它的通用性和软件生态成熟度(ROCm/DirectML)远超 NPU。
  • NPU 的价值目前更多体现在低功耗待机任务上。例如,当你合上盖子挂起时,NPU 可以低功耗运行语音助手监听,或者在后台整理照片标签,而不必唤醒高功耗的 GPU。这才是 50 TOPS 真正的用武之地——能效比,而非绝对性能。

给升级用户的建议

对于正在考虑入手 Strix Halo 平台的朋友,我的建议很明确:不要为了"NPU 跑大模型更快”这个理由去买单。至少在 2026 年中这个时间节点,本地大模型的推理主力依然是 GPU。

Strix Halo 的真正优势在于统一内存架构强大的集成显卡。它让你在没有独立显卡的轻薄本上,也能流畅运行 14B 甚至更大参数的模型,这才是“端侧 AI"落地的关键。至于 NPU,把它当作一个未来的潜力股,随着驱动更新和软件生态(如 Windows Copilot+ 的深度优化)的完善,或许在未来的特定场景下能发挥出那 50 TOPS 的真正实力。

现在的体验是:GPU 负责冲锋陷阵,NPU 负责后勤保障。这套组合拳,才构成了完整的本地 AI 体验。
在这里插入图片描述

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐