Ryzen AI 笔记本跑大模型，Ollama 一行命令搞定

2600_96323217

124人浏览 · 2026-06-26 12:01:00

2600_96323217 · 2026-06-26 12:01:00 发布

为什么命令行党首选 Ollama

对于习惯在终端里敲命令的开发者来说，图形界面往往显得冗余。在 Strix Halo 架构的笔记本上部署本地大模型，Ollama 绝对是“极简主义”的首选方案。它没有复杂的配置文件，也不需要你手动去折腾 ROCm 的环境变量，整个安装和运行过程就像安装一个普通的 CLI 工具一样顺滑。

最近入手这台搭载 AMD Strix Halo 处理器的新机后，我最先尝试的就是用它来跑本地代码模型。传统笔记本跑大模型常受限于显存带宽，但在 Strix Halo 的统一内存架构下，Radeon GPU 能直接调用系统大内存，这让 Ollama 这种轻量级工具如虎添翼。不需要额外的配置步骤，新版 Ollama 已经能自动识别到底层的 Radeon 显卡资源，真正做到了“开箱即用”。

Windows 环境下一键安装实录

在 Windows 上安装 Ollama 简单到令人发指。你不需要像以前那样去下载庞大的 CUDA toolkit 或者配置复杂的路径变量。

首先，访问 Ollama 官网下载 Windows 安装包。下载完成后，双击运行，一路点击"Next"保持默认选项即可。安装程序会自动将 ollama 命令添加到系统环境变量中。

安装结束后，打开 PowerShell 或 CMD 终端，输入以下命令验证安装：

ollama --version

如果终端返回了版本号，说明环境已经就绪。这时候，你的后台其实已经静默启动了一个本地服务，监听在默认的 11434 端口，随时准备接收指令。对于 Strix Halo 用户来说，最爽的一点在于：你完全不需要手动设置 HSA_OVERRIDE_GFX_VERSION 或者指定 GPU 索引，驱动层和 Ollama 的新版后端已经完成了自动握手。

一行命令拉取并运行代码模型

环境准备好后，真正的魔法只需要一行命令。作为开发者，我首选测试的是对代码生成优化过的 qwen2.5-coder 模型。

在终端中输入：

ollama run qwen2.5-coder:7b

按下回车后，你会看到终端开始显示下载进度。Ollama 会自动从仓库拉取对应的 GGUF 量化模型文件。由于 Strix Halo 配备了高速的 SSD 和大带宽内存，即使是几个 GB 的模型文件，下载和解压过程也非常迅速。

当看到 success 提示后，交互界面随即开启。此时，你可以直接输入问题，例如：“请用 Python 写一个快速排序算法，并添加类型注解”。

值得注意的是，在这个阶段，Ollama 已经在后台自动调用了 Radeon GPU 进行加速。你无需任何额外操作，它就能感知到硬件的存在并将计算任务卸载给 GPU。这种无感知的体验，正是命令行工具追求的最高境界。

如果你需要自定义模型参数，比如限制上下文长度或修改系统提示词，也可以创建一个 Modelfile：

FROM qwen2.5-coder:7b
PARAMETER num_ctx 4096
SYSTEM "你是一个运行在本地 Strix Halo 平台上的代码助手，专注于生成高质量、安全的代码。"

然后通过以下命令构建并运行专属模型：

ollama create my-coder -f Modelfile
ollama run my-coder

告别环境变量配置的繁琐

在过去，想要在 AMD 显卡上顺利运行 AI 模型，往往需要花费大量时间排查驱动版本、设置环境变量，甚至编译源码。但在 Strix Halo 平台上，这一切都成为了历史。

实测过程中，我特意检查了进程状态。在任务管理器中可以看到，当 Ollama 生成内容时，Radeon GPU 的 3D 或计算引擎占用率显著上升，而 CPU 占用则保持在较低水平。这证明新版 Ollama 已经完美适配了 AMD 的异构计算架构，能够自动将矩阵运算任务调度到 GPU 核心上执行。

这意味着，无论是刚接触 AI 的新手，还是追求效率的老手，都不再需要被繁琐的配置劝退。你只需要关注模型本身和 Prompt 的质量，剩下的交给工具链自动处理。这种“零配置”的部署体验，极大地降低了端侧 AI 的使用门槛。

离线状态下的首字响应实测

部署的最终目的是为了使用，而速度的关键在于“首字延迟”（Time to First Token）。在完全断开网络的环境下，我对 qwen2.5-coder:7b 进行了多轮测试。

在 Strix Halo 的加持下，GPU 全速运转，首字延迟稳定控制在 0.3 秒 左右。这是什么概念？基本上在你按下回车键的瞬间，屏幕就开始吐字了，几乎感觉不到任何等待。相比之下，如果使用纯 CPU 模式，这个延迟可能会飙升到 1.5 秒以上，那种“卡顿感”会严重打断编程思路。

生成速度方面，tokens/s 稳定在 45-50 之间。这个速度不仅远超人类的阅读速度，也足以满足实时代码补全的需求。当你正在编写一个复杂的函数，让模型即时生成后续逻辑时，这种流畅度能保证你的心流状态不被打断。

更重要的是，这一切都是在离线状态下完成的。没有云端 API 的网络波动，没有数据上传的隐私顾虑，所有计算都在本地闭环完成。对于需要处理敏感代码库或在高铁、飞机等无网环境下工作的开发者来说，这种确定性是无价的。

通过这一番折腾，我深刻体会到，在 Strix Halo 架构上，本地大模型不再是极客的玩具，而是实实在在的生产力工具。只需一行命令，你就能拥有一个随叫随到、绝对安全且响应神速的私人代码助手。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer