Strix Halo 笔记本上手，Ollama 本地部署避坑指南

2600_96323192

7人浏览 · 2026-06-26 17:12:40

2600_96323192 · 2026-06-26 17:12:40 发布

开箱即用的期待与“卡顿”的现实

刚拿到这台搭载 AMD Strix Halo 架构的笔记本时，心情是激动的。Ryzen AI Max+ 处理器配合大容量的统一内存，理论上就是为本地大模型而生的“移动工作站”。我迫不及待地想在 Windows 环境下跑通 Ollama，体验那种数据不出域、响应零延迟的快感。然而，现实往往比理想骨感。

按照官网指引，下载、安装、运行 ollama run llama3，一切看似顺滑。但盯着屏幕上的光标，首字延迟高达数秒，生成速度更是只有个位数 tokens/s。打开任务管理器一看，CPU 占用率飙升，而 Radeon GPU 却在一旁“围观”，利用率几乎为零。这种“有劲使不出”的落差，是许多刚入手 Strix Halo 设备的开发者遇到的第一个坑。问题不在硬件性能，而在于 Windows 环境下 Ollama 对 AMD GPU 后端的识别机制。如果不手动干预，它默认会回退到纯 CPU 模式，让这台性能猛兽变成了普通办公本。

核心痛点：为什么默认安装不调用 GPU？

在 Linux 生态中，ROCm 栈的适配相对成熟，但在 Windows 上，情况则复杂得多。Ollama 在 Windows 端主要依赖 Vulkan 后端来调用 AMD 显卡进行推理加速。Strix Halo 集成的 Radeon 8060S 等核显虽然性能强劲，但其架构版本较新，默认的驱动识别逻辑有时无法正确匹配 Ollama 预置的 GPU 配置表。

简单来说，软件“不认识”这块新显卡的具体代号，为了保稳，它选择保守策略——只用 CPU 跑。这就导致了明明拥有 32GB 甚至 64GB 的高速统一内存，带宽优势完全无法发挥，推理速度慢如 PPT。要解决这个问题，我们需要通过环境变量“告诉”Ollama 正确的显卡架构版本，强制其启用 Vulkan 加速。这不是硬件故障，而是一个典型的软件配置错位。

手把手修复：PowerShell 中的关键配置

解决这个问题的过程并不复杂，但需要精确操作。我们不需要重新编译代码，只需在启动服务前设置一个关键的环境变量。对于 Windows 用户，最便捷的方式是使用 PowerShell。

首先，以管理员身份打开 PowerShell。我们需要设置 HSA_OVERRIDE_GFX_VERSION 变量。针对 Strix Halo 架构（基于 GFX1103 架构），通常需要将版本指定为 11.0.3。请在终端中依次执行以下命令：

# 设置环境变量，强制指定 GPU 架构版本
$env:HSA_OVERRIDE_GFX_VERSION = "11.0.3"

# 启动 Ollama 服务
ollama serve

如果你希望这个设置永久生效，避免每次打开终端都要重复输入，可以将该变量添加到系统环境变量中：

右键点击“此电脑” -> “属性” -> “高级系统设置”。
点击“环境变量”按钮。
在“系统变量”区域点击“新建”。
变量名填写 HSA_OVERRIDE_GFX_VERSION，变量值填写 11.0.3。
保存后重启 Ollama 服务或重启电脑。

完成这一步后，再次拉取模型并运行。你会发现原本“沉睡”的 Radeon GPU 开始工作。Ollama 会加载 Vulkan 后端，将计算密集型矩阵运算卸载到 GPU 上，而 CPU 则专注于调度任务。

验证与实测：从“爬行”到“飞驰”

配置完成后，如何确认 GPU 是否真的生效了？最直观的方法是观察生成速度和资源监控。

我们可以尝试拉取一个中等规模的模型进行测试，例如 qwen2.5:7b 或 llama3.1:8b：

# 拉取模型（如果尚未下载）
ollama pull qwen2.5:7b

# 运行模型
ollama run qwen2.5:7b

在对话过程中，留意首字延迟（Time to First Token）。在未配置前，这个数值可能在 1.5 秒以上；配置成功后，通常会降至 0.3 秒以内。生成速度也会有质的飞跃，从 CPU 模式的 5-8 tokens/s 提升至 40-50 tokens/s 甚至更高，具体取决于模型参数量和量化等级。

同时，打开任务管理器的“性能”标签页，找到 GPU 选项卡。在模型生成文本时，你应该能看到 “Video Decode” 或 “Compute” 引擎的利用率显著上升，这证明 Radeon 显卡正在全速运转。对于 Strix Halo 而言，由于其统一内存架构，你还会发现即使运行 14B 甚至 32B 的大模型，系统依然流畅，因为数据无需在显存和内存之间频繁拷贝，带宽瓶颈被彻底打破。