Strix Halo 多任务处理，边玩游戏边跑大模型

2600_96323174

14人浏览 · 2026-06-24 10:15:20

2600_96323174 · 2026-06-24 10:15:20 发布

游戏与大模型能否兼得？Strix Halo 实战测试

最近拿到一台搭载 AMD Strix Halo 平台的工程机，心里一直嘀咕：官方宣传的“三芯合一”架构，真能扛得住一边跑 3A 大作、一边本地推理大模型这种“变态”场景吗？毕竟以前这么干，要么游戏卡成 PPT，要么 AI 回复慢得像在思考人生。今天咱们不聊参数云评测，直接上硬菜，模拟真实的高负载环境，看看这台机器到底是不是全能选手。

测试环境与“魔鬼”场景设定

为了还原最真实的压力测试，我特意构建了一个典型的极客工作流：前台全开画质运行对 CPU 和 GPU 要求极高的 3A 射击游戏，后台则挂起一个本地大模型服务，随时准备处理复杂的代码生成或文档总结任务。

硬件核心是 Strix Halo 平台，这颗 U 的亮点在于集成了高性能 CPU、Radeon 8060S 级别的强力核显，以及算力高达 50 TOPS 的 Ryzen AI NPU。软件方面，为了兼顾易用性和性能监控，我选择了 Ollama 作为后端推理引擎，搭配 LM Studio 进行可视化交互。模型选用的是量化后的 Llama-3-8B-Instruct-Q4_K_M，这个尺寸在端侧设备上平衡了智商与速度，是本地部署的热门选择。

测试逻辑很简单：在游戏进入激烈交火、帧数波动敏感的环节，通过 LM Studio 向后台模型发送一条长指令（例如：“解释这段 Python 异步代码的逻辑并优化”），观察两个维度的表现：

游戏侧：平均帧率（FPS）是否出现断崖式下跌？最低帧（1% Low FPS）是否稳定？
AI 侧：首字延迟（Time to First Token）是多少？生成速度（Tokens/s）是否维持在可对话的水平？

资源调度：三芯如何“分赃”？

按下启动键，游戏加载完毕，后台 Ollama 服务也已就绪。打开任务管理器和 AMD 自带的性能监控面板，有趣的资源分配现象出现了。

当游戏独自运行时，Radeon 核显的占用率几乎飙升至 95% 以上，CPU 的多核性能也被充分调用以处理物理运算和 AI 逻辑（游戏内的 NPC 行为等）。此时，NPU 处于低功耗待机状态。

一旦我在 LM Studio 中点击"Generate"，系统调度机制瞬间介入。并没有出现我预想中“显卡被抢走导致游戏画面撕裂”的情况。监控数据显示，Radeon 核显依然牢牢占据着图形渲染的主导权，游戏帧数仅在瞬间有不到 3 帧的微小波动，随即恢复稳定。

那么，大模型的算力从哪来？答案正是那颗 50 TOPS 的 Ryzen AI NPU。在 Ollama 的配置中，通过指定 num_gpu 参数或利用后端自动调度，推理任务被精准地导向了 NPU 和部分闲置的 GPU 计算单元。在监控图中可以清晰看到，NPU 的利用率瞬间拉满至 80%-90%，而 CPU 的大核占用率几乎没有明显变化。这种“专芯专用”的异构计算架构，完美避开了游戏与 AI 争夺同一块显卡资源的尴尬。

实测数据：丝滑还是卡顿？

经过半小时的连续“双开”折磨，结果出乎意料地稳。

游戏表现：
在 1080P 高画质下，游戏的平均帧率稳定在 85 FPS 左右。开启后台大模型推理后，平均帧率微降至 82 FPS，跌幅不足 4%。更关键的是，在实际体感中，完全察觉不到任何卡顿或操作延迟。Strix Halo 强大的内存带宽（统一内存架构）在这里功不可没，它确保了游戏贴图和模型权重数据在高速通道中互不干扰。

AI 响应速度：
这才是重头戏。在后台高负载下，Llama-3-8B 的首字延迟约为 1.2 秒，生成速度稳定在 18-22 tokens/s。这是什么概念？相当于正常人语速的两倍多，阅读体验非常流畅，完全没有那种“挤牙膏”式的等待感。即便是在游戏爆炸特效满天飞、GPU 负载最高的时刻，AI 的输出也没有出现明显的停顿或降速。

# 简单的 Ollama 运行命令示例，实际测试中可配合环境变量优化
ollama run llama3:8b-instruct-q4_k_m
# 输出示例：
# > 解释这段代码...
# (等待 1.2s)
# 这段代码使用了 asyncio 库来实现并发... (流畅输出中)

为什么 Strix Halo 能做到？

这次测试之所以成功，核心在于 AMD 这套架构对算力边界的重新定义。传统的集成显卡方案，往往因为显存带宽不足或计算单元共享，导致“顾此失彼”。而 Strix Halo 通过以下两点实现了破局：

首先是物理隔离与动态协同。NPU 的存在不仅仅是为了凑 TOPS 数字，它实际上承担了大量持续的、中等负载的 AI 推理任务，把宝贵的 GPU 资源彻底解放出来留给游戏渲染。只有当模型过大或需要极高精度时，系统才会智能调动 GPU 辅助，这种动态调度由底层驱动自动完成，用户无感。

其次是统一内存架构（UMA）的红利。Strix Halo 支持高达 128GB 的 DDR5 内存，且 CPU、GPU、NPU 共享这片高速内存池。这意味着加载大模型权重时，不需要在显存和内存之间来回拷贝数据，极大地降低了延迟，也避免了因显存爆满而导致的游戏崩溃。

给玩家的实践建议

如果你也想复刻这种“游戏 +AI 助手”的双屏工作流，这里有几个实操小贴士：

模型选择要克制：虽然 Strix Halo 很强，但本地显存/内存总量是有限的。推荐运行 7B-14B 参数量化的模型（如 Q4 或 Q5 版本），既能保证智商在线，又能留出足够资源给游戏。
工具链配置：使用 Ollama 时，可以通过 OLLAMA_NUM_PARALLEL 限制并发请求，避免多个 AI 任务同时抢占资源。LM Studio 里记得关闭不必要的后台预加载功能。
散热是关键：双高负载必然带来高发热。建议将笔记本垫高或使用外置散热底座，保持进风口通畅，这样才能让 CPU 和 NPU 长时间维持高频运行而不降频。

折腾完这一圈，不得不感叹端侧 AI 时代的到来。以前我们总以为本地跑大模型是开发者的专利，或者必须牺牲游戏体验。但现在，像 Strix Halo 这样的平台证明，一台 PC 完全可以既是顶级的游戏机，又是私密的 AI 工作站。当你一边在战场上冲锋，一边让本地的 AI 助手帮你整理战术笔记时，那种“一切尽在掌握”的感觉，或许就是未来 PC 该有的样子。在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起

AMD开发者中国社区

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的