Ollama 在 Windows 上调教指南，让 Radeon GPU 火力全开

2600_96323213

33人浏览 · 2026-06-23 17:13:20

2600_96323213 · 2026-06-23 17:13:20 发布

从安装到调优：Ollama 在 Strix Halo 上的进阶之路

对于习惯在终端里敲命令的开发者来说，Ollama 一直是本地运行大语言模型的首选工具。它轻量、后台稳定，非常适合集成到自动化工作流中。但在 AMD Strix Halo 架构的 Windows 设备上，想要让 Ollama 真正“火力全开”，并不像官方文档说的那样只需一键安装。由于 Windows 下 ROCm 生态的特殊性，默认配置往往无法完全识别 Radeon GPU 的全部算力，导致模型推理回退到 CPU，速度大打折扣。本文将深入探讨如何在 Strix Halo 平台上对 Ollama 进行深度调优，解决 GPU 识别不全的痛点，并通过自定义配置释放统一内存架构的巨大潜力。

基础安装与核心痛点解析

在 Strix Halo 设备上部署 Ollama 的第一步依然是下载官方 Windows 安装包并完成标准安装。安装完成后，在 PowerShell 中输入 ollama serve 即可启动服务。然而，当你运行 ollama run llama3 时，可能会发现生成速度远低于预期。通过任务管理器观察，你会发现 Radeon GPU 的 3D 或计算引擎利用率极低，而 CPU 占用率却居高不下。

这是因为在 Windows 环境下，Ollama 默认的后端调度策略有时无法准确匹配 Strix Halo 特有的 GPU 架构标识。Strix Halo 集成了高性能的 Radeon 8060S 等核显，拥有独立的计算单元，但系统可能将其误判为普通集成显卡，从而限制了 GPU 卸载层数（GPU Offload）。如果不进行干预，Ollama 可能只会将少量计算层分配给 GPU，其余大部分仍由 CPU 承担，这不仅浪费了宝贵的统一内存带宽，也失去了升级硬件的意义。因此，手动介入配置，强制指定 GPU 资源，是发挥这台设备性能的关键。

环境变量调优：强制唤醒 Radeon 算力

要解决 GPU 识别不全的问题，最直接有效的方法是设置特定的环境变量。在 Strix Halo 平台上，我们需要告诉 Ollama 底层运行时忽略默认的架构检测，直接以兼容的高性能模式运行。

在启动 Ollama 服务之前，请在 PowerShell 中执行以下命令来设置 HSA_OVERRIDE_GFX_VERSION：

$env:HSA_OVERRIDE_GFX_VERSION="11.0.3"
$env:OLLAMA_NUM_GPU="99"
ollama serve

这里有两个关键变量：

HSA_OVERRIDE_GFX_VERSION：将其设置为 "11.0.3"（或根据具体驱动版本尝试 "11.0.0"），可以欺骗底层运行时，使其认为当前 GPU 是受支持的 RDNA3 架构，从而激活完整的计算指令集。
OLLAMA_NUM_GPU：设置为 "99"（或一个足够大的数字），意在强制 Ollama 尝试将所有可能的模型层都卸载到 GPU 上。在 Strix Halo 的统一内存架构下，只要物理内存充足（建议 32GB 起步），我们就应该尽可能让 Radeon 显卡承担所有矩阵运算。

设置完成后，再次运行模型并观察任务管理器。如果配置成功，你应该能看到 GPU 的视频编码或计算负载显著上升，且 Token 生成速度会有质的飞跃。例如，在运行 14B 参数模型时，速度可从 CPU 模式的 5-8 tokens/s 提升至 25 tokens/s 以上。

利用 Modelfile 定制专属模型配置

除了全局环境变量，针对特定模型进行精细化控制同样重要。Ollama 的 Modelfile 机制允许我们固化上下文窗口大小和 GPU 卸载策略，避免每次启动都要重复输入参数。这对于需要处理长文档或复杂代码库的场景尤为实用。

首先，创建一个名为 Modelfile 的文件（无后缀），内容如下：

FROM qwen2.5:14b-instruct-q4_k_m

# 设置超大的上下文窗口，利用 Strix Halo 的大内存优势
PARAMETER num_ctx 32768

# 强制最大化 GPU 卸载层数
PARAMETER num_gpu 99

# 定义系统提示词，强化本地助手的角色
SYSTEM "你是一个运行在本地 AMD Strix Halo 平台上的高效安全助手，所有数据均在本地闭环处理。"

在这个配置中，num_ctx 被设定为 32768，这意味着模型可以一次性处理数万字的文本，非常适合分析长篇技术文档或法律合同，而无需担心显存溢出——这正是 Strix Halo 统一内存架构的强项。num_gpu 99 则确保了即使在模型加载阶段，也会优先占满 GPU 资源。

保存文件后，使用以下命令构建并运行你的专属模型：

ollama create my-strix-ai -f Modelfile
ollama run my-strix-ai

这样，你就拥有了一个针对当前硬件深度优化的模型实例，后续调用只需 ollama run my-strix-ai 即可，无需再关心底层参数。

打造自动化工作流的后台服务

对于进阶用户而言，Ollama 的价值不仅在于交互式对话，更在于作为后台服务被其他程序调用。在 Strix Halo 上，经过上述调优的 Ollama 服务可以提供稳定的本地 API 接口，支持各类自动化脚本、IDE 插件或代理框架（如 OpenClaw）。

为了确保服务开机自启且保持优化状态，我们可以编写一个简单的 PowerShell 启动脚本 start-ollama.ps1：

# 设置优化环境变量
$env:HSA_OVERRIDE_GFX_VERSION = "11.0.3"
$env:OLLAMA_NUM_GPU = "99"

# 启动 Ollama 服务
Write-Host "Starting Ollama with Strix Halo optimizations..."
ollama serve

你可以将此脚本添加到 Windows 的任务计划程序中，设置为登录时自动运行。这样一来，无论你是否打开终端，Ollama 都已在后台以最佳状态待命。当你在 VS Code 中安装本地 AI 插件，或运行自己的 Python 脚本调用 http://127.0.0.1:11434 接口时，所有的推理请求都将自动流经经过调优的 Radeon GPU，实现低延迟、高吞吐的响应。

通过这一系列从环境变量到配置文件的深度调优，Ollama 在 Strix Halo 平台上不再是一个普通的命令行工具，而是一个能够充分释放硬件潜能、保障数据隐私的私有 AI 引擎。对于追求极致效率和掌控感的开发者来说，这种完全本地化、可定制的工作流，才是端侧 AI 的正确打开方式。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起