笔记本跑 70B 大模型，AMD Strix Halo 实测真香

小助手

125人浏览 · 2026-06-12 14:18:30

小助手 · 2026-06-12 14:18:30 发布

显存焦虑的终结：96GB 统一内存的降维打击

对于长期在本地折腾大模型的开发者来说，“显存不足”这四个字简直是噩梦。以前想跑个 70B 参数的大模型，要么得买昂贵的多卡服务器，要么就得对模型进行“惨无人道”的 INT4 甚至 INT2 量化，牺牲智能程度来换取能跑起来。传统笔记本那点独立的 8GB 或 16GB 显存，在 70B 模型面前连个水花都溅不起来。

但 AMD Strix Halo 架构的出现，直接把这张桌子掀了。它最核心的杀手锏就是96GB 的统一内存架构。在这个设计下，CPU、GPU 和 NPU 不再各自为政，而是共享同一块巨大的内存池。这意味着，原本需要服务器集群才能加载的“满血版”大模型，现在可以直接塞进一台轻薄本里。你不再需要纠结显存够不够，也不用担心因为显存溢出（OOM）而中断实验。这种硬件层面的突破，让“万亿模型本地化”从概念真正变成了开发者的日常。

实战演练：Ollama 一键拉起满血模型

理论说得再多，不如实际跑一下。接下来我们基于 Strix Halo 平台，演示如何用最简单的流程运行 Llama 3 或 DeepSeek 这类大参数模型。

环境准备与驱动安装

首先，确保你的系统已经更新到支持 Ryzen AI 的最新状态。

驱动更新：前往 AMD 官网下载并安装最新的 Adrenalin 驱动程序。安装时务必勾选包含 ROCm 和 AI Bundle 的组件，这是开启 GPU/NPU 加速的关键。
环境变量配置：在某些 Linux 发行版或 WSL2 环境下，可能需要手动指定图形架构版本以确保 ROCm 正确识别。可以在终端执行以下命令（以 Ubuntu 为例）：
```
export HSA_OVERRIDE_GFX_VERSION=11.0.3
```
Windows 用户通常在使用官方最新驱动后无需此步骤，系统会自动调度。

拉取与运行模型

安装好 Ollama 后，我们不再需要复杂的 Docker 容器编排。直接打开终端，尝试拉取一个未经过度量化的模型。由于拥有 96GB 的超大内存带宽，我们可以尝试参数量更大的版本，而不仅仅是压缩版。

# 拉取 Llama 3 70B 模型 (如果内存允许，可尝试 fp16 或高比特量化版)
ollama run llama3:70b

# 或者尝试 DeepSeek 系列
ollama run deepseek-coder:33b

在传统消费级显卡上，运行 70B 模型通常必须使用 q4_0 这种低精度量化版本，否则根本加载不进显存。而在 Strix Halo 上，你可以更从容地选择 q6_k 甚至更高精度的版本，因为内存池足够大。实测中，加载一个 70B 参数的模型仅需数秒至十几秒（取决于 SSD 速度），随即即可进入对话状态。

效果对比：量化 vs 满血

这里有个明显的体验差异。以前用 RTX 4090 跑 70B 模型，为了塞进 24GB 显存，不得不将模型量化到 4bit，这会导致模型在复杂逻辑推理和代码生成上的“智商”下降，出现幻觉的概率增加。

而在 Strix Halo 上，由于内存充裕，我们保留了更多的模型精度。在实际测试中，高比特版本在处理长上下文逻辑、复杂代码补全时，回答的准确性和连贯性明显优于强行的低比特量化版。这才是真正的“满血”体验。

能效与散热：NPU 协同的惊喜

除了性能，Strix Halo 在能效比上的表现同样让人印象深刻。在持续运行高负载推理任务时，系统会灵活调度 GPU 与 NPU 协同工作。GPU 负责高强度的并行计算，而 NPU 则能以极低的功耗处理部分算子或后台任务。

我曾在连续一小时的高强度问答测试中监测过设备状态：笔记本表面温度依然控制在舒适范围内，风扇噪音远低于传统移动工作站。这种低功耗特性意味着，即使在不插电的移动场景下，你也能长时间维持稳定的 AI 服务。对于需要带着电脑去咖啡馆或会议室现场演示原型的开发者来说，这种“算力随人走”且不用担心电量尿崩的体验，是传统台式机方案无法比拟的。

隐私优先：构建本地安全屏障

有了充足的本地算力和存储，构建完全隐私安全的 AI 应用变得前所未有的简单。以往大家不敢把企业内部文档、个人代码库或私密笔记上传到云端大模型，就是担心数据泄露。

现在，利用 Strix Halo 的强大吞吐能力，你可以轻松搭建本地的 RAG（检索增强生成）系统或 AI Agent。所有的数据处理、向量化、推理均在设备内部完成，物理隔绝了网络风险。无论是分析敏感的法律合同，还是辅助编写 proprietary 的代码，数据始终不出域。这种“数据主权”完全掌握在自己手中的安全感，才是端侧 AI 爆发的核心价值所在。

对于开发者而言，拥有一台能本地跑 70B 大模型的笔记本，不仅仅是硬件的升级，更是工作流的革新。它让我们摆脱了对云端算力的依赖，让创新不再受限于网络和预算。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

PyTorch实现的图像视频马赛克智能处理工具：一键加/去马赛克，含训练推理全流程

这个工具包专为图像和视频中的马赛克区域设计，能自动识别并还原被遮挡内容（去马赛克），也能对任意指定区域生成自然、逼真的马赛克效果（加马赛克）。底层基于PyTorch，集成了UNet、Pix2Pix等成熟架构，开箱即用。提供完整工作流：从视频抽帧、生成带马赛克的训练数据（支持规则/不规则掩码）、模型训练（train.py）、单图/视频推理（runmodel.py），到轻量GUI参考实现。预训练模型已

AMD开发者中国社区

开箱即用的PyTorch YOLOv3目标检测工程：含预训练权重、14张测试图与摄像头/视频实时检测脚本

一套拿来就能跑的YOLOv3 PyTorch实现，基于ayooshkathuria项目精简整合，无需配置环境或手动下载模型。压缩包内置240MB yolov3.weights预训练权重，直接加载即可推理，解决国内用户访问GitHub大文件慢或失败的问题。支持COCO和VOC两类常用数据集格式，配套coco.names和voc.names类别文件，以及pallete颜色映射表，确保检测框显示清晰可辨

AMD开发者中国社区

Instinct GPU 与 ROCm 7.x 新手部署实战指南

很多开发者在尝试将 AMD GPU 引入深度学习工作流时，往往卡在环境搭建的“最后一公里”。明明硬件参数亮眼，性价比极高，却因为驱动版本不对应、依赖库缺失或者权限配置疏忽，导致代码跑不起来，甚至系统出现不稳定。这种挫败感不仅浪费时间，更让人对开源生态的兼容性产生疑虑。实际上，只要遵循正确的部署路径，AMD 的计算平台同样能提供流畅、高效的开发体验。本文将抛开那些晦涩难懂的官方文档术语，直接还原一套