Strix Halo 多任务处理,边玩游戏边跑大模型
游戏与大模型能否兼得?Strix Halo 实战测试
最近拿到一台搭载 AMD Strix Halo 平台的工程机,心里一直嘀咕:官方宣传的“三芯合一”架构,真能扛得住一边跑 3A 大作、一边本地推理大模型这种“变态”场景吗?毕竟以前这么干,要么游戏卡成 PPT,要么 AI 回复慢得像在思考人生。今天咱们不聊参数云评测,直接上硬菜,模拟真实的高负载环境,看看这台机器到底是不是全能选手。
测试环境与“魔鬼”场景设定
为了还原最真实的压力测试,我特意构建了一个典型的极客工作流:前台全开画质运行对 CPU 和 GPU 要求极高的 3A 射击游戏,后台则挂起一个本地大模型服务,随时准备处理复杂的代码生成或文档总结任务。
硬件核心是 Strix Halo 平台,这颗 U 的亮点在于集成了高性能 CPU、Radeon 8060S 级别的强力核显,以及算力高达 50 TOPS 的 Ryzen AI NPU。软件方面,为了兼顾易用性和性能监控,我选择了 Ollama 作为后端推理引擎,搭配 LM Studio 进行可视化交互。模型选用的是量化后的 Llama-3-8B-Instruct-Q4_K_M,这个尺寸在端侧设备上平衡了智商与速度,是本地部署的热门选择。
测试逻辑很简单:在游戏进入激烈交火、帧数波动敏感的环节,通过 LM Studio 向后台模型发送一条长指令(例如:“解释这段 Python 异步代码的逻辑并优化”),观察两个维度的表现:
- 游戏侧:平均帧率(FPS)是否出现断崖式下跌?最低帧(1% Low FPS)是否稳定?
- AI 侧:首字延迟(Time to First Token)是多少?生成速度(Tokens/s)是否维持在可对话的水平?
资源调度:三芯如何“分赃”?
按下启动键,游戏加载完毕,后台 Ollama 服务也已就绪。打开任务管理器和 AMD 自带的性能监控面板,有趣的资源分配现象出现了。
当游戏独自运行时,Radeon 核显的占用率几乎飙升至 95% 以上,CPU 的多核性能也被充分调用以处理物理运算和 AI 逻辑(游戏内的 NPC 行为等)。此时,NPU 处于低功耗待机状态。
一旦我在 LM Studio 中点击"Generate",系统调度机制瞬间介入。并没有出现我预想中“显卡被抢走导致游戏画面撕裂”的情况。监控数据显示,Radeon 核显依然牢牢占据着图形渲染的主导权,游戏帧数仅在瞬间有不到 3 帧的微小波动,随即恢复稳定。
那么,大模型的算力从哪来?答案正是那颗 50 TOPS 的 Ryzen AI NPU。在 Ollama 的配置中,通过指定 num_gpu 参数或利用后端自动调度,推理任务被精准地导向了 NPU 和部分闲置的 GPU 计算单元。在监控图中可以清晰看到,NPU 的利用率瞬间拉满至 80%-90%,而 CPU 的大核占用率几乎没有明显变化。这种“专芯专用”的异构计算架构,完美避开了游戏与 AI 争夺同一块显卡资源的尴尬。
实测数据:丝滑还是卡顿?
经过半小时的连续“双开”折磨,结果出乎意料地稳。
游戏表现:
在 1080P 高画质下,游戏的平均帧率稳定在 85 FPS 左右。开启后台大模型推理后,平均帧率微降至 82 FPS,跌幅不足 4%。更关键的是,在实际体感中,完全察觉不到任何卡顿或操作延迟。Strix Halo 强大的内存带宽(统一内存架构)在这里功不可没,它确保了游戏贴图和模型权重数据在高速通道中互不干扰。
AI 响应速度:
这才是重头戏。在后台高负载下,Llama-3-8B 的首字延迟约为 1.2 秒,生成速度稳定在 18-22 tokens/s。这是什么概念?相当于正常人语速的两倍多,阅读体验非常流畅,完全没有那种“挤牙膏”式的等待感。即便是在游戏爆炸特效满天飞、GPU 负载最高的时刻,AI 的输出也没有出现明显的停顿或降速。
# 简单的 Ollama 运行命令示例,实际测试中可配合环境变量优化
ollama run llama3:8b-instruct-q4_k_m
# 输出示例:
# > 解释这段代码...
# (等待 1.2s)
# 这段代码使用了 asyncio 库来实现并发... (流畅输出中)
为什么 Strix Halo 能做到?
这次测试之所以成功,核心在于 AMD 这套架构对算力边界的重新定义。传统的集成显卡方案,往往因为显存带宽不足或计算单元共享,导致“顾此失彼”。而 Strix Halo 通过以下两点实现了破局:
首先是物理隔离与动态协同。NPU 的存在不仅仅是为了凑 TOPS 数字,它实际上承担了大量持续的、中等负载的 AI 推理任务,把宝贵的 GPU 资源彻底解放出来留给游戏渲染。只有当模型过大或需要极高精度时,系统才会智能调动 GPU 辅助,这种动态调度由底层驱动自动完成,用户无感。
其次是统一内存架构(UMA)的红利。Strix Halo 支持高达 128GB 的 DDR5 内存,且 CPU、GPU、NPU 共享这片高速内存池。这意味着加载大模型权重时,不需要在显存和内存之间来回拷贝数据,极大地降低了延迟,也避免了因显存爆满而导致的游戏崩溃。
给玩家的实践建议
如果你也想复刻这种“游戏 +AI 助手”的双屏工作流,这里有几个实操小贴士:
- 模型选择要克制:虽然 Strix Halo 很强,但本地显存/内存总量是有限的。推荐运行 7B-14B 参数量化的模型(如 Q4 或 Q5 版本),既能保证智商在线,又能留出足够资源给游戏。
- 工具链配置:使用 Ollama 时,可以通过
OLLAMA_NUM_PARALLEL限制并发请求,避免多个 AI 任务同时抢占资源。LM Studio 里记得关闭不必要的后台预加载功能。 - 散热是关键:双高负载必然带来高发热。建议将笔记本垫高或使用外置散热底座,保持进风口通畅,这样才能让 CPU 和 NPU 长时间维持高频运行而不降频。
折腾完这一圈,不得不感叹端侧 AI 时代的到来。以前我们总以为本地跑大模型是开发者的专利,或者必须牺牲游戏体验。但现在,像 Strix Halo 这样的平台证明,一台 PC 完全可以既是顶级的游戏机,又是私密的 AI 工作站。当你一边在战场上冲锋,一边让本地的 AI 助手帮你整理战术笔记时,那种“一切尽在掌握”的感觉,或许就是未来 PC 该有的样子。
更多推荐


所有评论(0)