我的第一台 AI PC，用 Strix Halo 搭建本地知识库全过程

小助手

155人浏览 · 2026-06-15 18:54:46

小助手 · 2026-06-15 18:54:46 发布

为什么选择 Strix Halo 作为本地知识库的底座

折腾了这么久 AI，从最初的云端 API 调用，到后来在显存捉襟见肘的笔记本上跑量化模型，我一直觉得缺了点什么。直到拿到这台基于 AMD Strix Halo 平台的工程机，那种“终于可以把大模型真正装进口袋”的感觉才变得具体。

这次我不打算聊那些虚头巴脑的跑分，而是想实打实地记录一次**本地知识库（RAG）**的搭建全过程。Strix Halo 最吸引我的地方在于它激进的架构设计：它将 CPU、GPU 和 NPU 封装在一起，更重要的是，它支持高达 128GB 的 LPDDR5x 统一内存。对于本地大模型玩家来说，显存即正义，而统一内存架构意味着我们可以把原本割裂的系统内存和显存池打通，让大模型能吃到更多的“粮”。

我的目标很明确：利用这块板子的多核性能和超大内存带宽，跑通一个包含数据清洗、向量化、检索增强生成（RAG）的完整闭环，看看它在处理海量本地文档时，到底能不能做到“秒回”。

环境搭建：Ollama 与 LM Studio 的选型博弈

工欲善其事，必先利其器。在本地部署大模型，目前主流的方案集中在 Ollama 和 LM Studio 之间。

对于新手或者喜欢图形化操作的朋友，LM Studio 无疑是首选。它的界面直观，内置了模型搜索和下载功能，还能直接看到 GPU 加载进度条。在 Strix Halo 上，LM Studio 能够自动识别到 AMD 的 Radeon 显卡层，通过 Vulkan 后端进行加速。我在测试中发现，加载一个 14B 参数的模型时，LM Studio 能清晰地展示显存占用情况，这对于排查内存溢出问题非常友好。

但如果你更偏向命令行极客，或者需要将模型集成到自动化脚本中，Ollama 则是更高效的选择。它在 Linux 和 Windows 下的表现都非常稳定，且对 AMD ROCm 的支持日益完善。在这次项目中，我最终选择了 Ollama 作为推理后端，因为它更轻量，且在处理高并发请求时资源调度更加灵活；同时搭配 AnythingLLM 或自定义的 Python 脚本来管理知识库流程。

安装过程本身并不复杂，关键在于驱动。确保你的 AMD Adrenalin 驱动更新到最新版本，以开启对 ROCm 或 Vulkan 的最佳支持。在 Ollama 的配置文件中，我特意开启了 OLLAMA_NUM_PARALLEL 参数，为后续的并发测试埋下伏笔。

实战：从数据清洗到向量化的全流程

搭建知识库的核心不在于模型有多大，而在于数据怎么处理。我准备了一份约 2GB 的技术文档合集，包括 PDF、Markdown 和各种格式的日志文件。

1. 数据清洗与分块

原始数据往往是脏乱的。我写了一个简单的 Python 脚本，利用 langchain 库进行预处理。这一步在 Strix Halo 的 Ryzen AI NPU 上并没有获得显著的加速（因为主要是逻辑运算），但在 CPU 的多核并行处理下，速度依然飞快。

重点在于**分块（Chunking）**策略。为了保证检索精度，我将文档切分为 512 token 的重叠块。Strix Halo 的大内存优势在这里初现端倪：我可以一次性将大量文本载入内存进行处理，而不用担心频繁的磁盘 I/O 成为瓶颈。

2. 向量化嵌入（Embedding）

这是最耗时的环节之一。我需要将成千上万个文本块转化为向量。以往在普通笔记本上，这一步往往需要跑几个小时，风扇狂转。

而在 Strix Halo 上，我尝试将 Embedding 模型（如 bge-m3）直接加载到 Radeon 显存中。得益于统一内存架构，数据无需在 CPU 和 GPU 之间反复拷贝。实测数据显示，向量化速度比上一代平台提升了近 40%。原本预计需要两小时的任务，不到一个小时就完成了。生成的向量数据被存入本地的 ChromaDB 实例中，整个过程丝滑流畅。

性能深潜：内存分配与并发响应测试

重头戏来了。当知识库构建完成，真正的考验是问答检索的响应速度和系统的并发能力。

内存分配的“甜蜜点”

在配置过程中，我遇到了一个典型问题：如何平衡系统运行内存和大模型显存？Strix Halo 虽然支持大内存，但默认情况下系统会保留一部分给 OS。

通过调整 BIOS 中的 UMA Frame Buffer Size（统一内存架构帧缓冲大小），我将更多内存划拨给 GPU 使用。对于一个 32B 参数量化的模型（Q4_K_M），大约需要 20GB 左右的显存。在 64GB 总内存的机器上，我大胆地划出了 32GB 给 AI 任务。这一操作直接让模型能够全量加载进高速显存，避免了推理时的 Swap 交换，从而消除了卡顿感。

并发与响应速度

为了模拟真实的高负载场景，我编写了一个脚本，同时发起 10 个复杂的查询请求，每个请求都需要检索大量上下文并生成数百字的回答。

结果令人惊喜：

首字延迟（TTFT）：平均控制在 0.8 秒以内。这意味着你刚问完问题，答案就开始流淌出来。
生成速度：在单线程下，tokens 生成速度稳定在 45-50 tokens/s，阅读体验完全跟得上。
并发表现：即使在 10 路并发下，系统也没有崩溃，只是生成速度略有下降，但依然在可接受范围内。这主要归功于 Strix Halo 强大的多核 CPU 在处理并发请求调度时的韧性，以及 NPU 在后台辅助处理一些轻量级的预处理任务。

相比之下，以前用独显笔记本做同样测试，往往在 5 路并发时就会出现显存溢出（OOM）或者响应超时。Strix Halo 的统一内存架构在这里展现了降维打击般的优势——只要内存够大，模型就能随便塞，并发上限直接被拉高。

踩坑记录与优化建议

当然，过程并非一帆风顺。在初期测试中，我发现某些特定的算子在 AMD 显卡上的兼容性偶尔会报错，导致推理中断。这通常是因为使用的量化版本过于激进（如 Q2_K），或者后端框架对特定指令集支持不完善。

解决方案很简单：

模型选择：优先选择 GGUF 格式中经过广泛验证的 Q4_K_M 或 Q5_K_M 版本，它们在精度和速度之间取得了最佳平衡，且在 AMD 平台上稳定性最高。
后端切换：如果遇到 ROCm 兼容性问题，可以尝试切换到 Vulkan 后端，虽然性能可能有轻微损失，但胜在稳定。
散热监控：虽然 Strix Halo 能效比出色，但在长时间高负载跑图或推理时，机身温度依然会上升。建议保持通风良好，或者在 BIOS 中适当调整风扇曲线。

结语：端侧 AI 的私人领地

当最后一个问题得到精准回答，看着屏幕上流畅跳动的字符，我意识到这台 Strix Halo 不仅仅是一台电脑，它更像是一个私有的智能中枢。

不需要担心云端服务的隐私泄露，不需要忍受网络延迟的波动，更不用为昂贵的 API 调用费买单。所有的数据都在本地，所有的算力都为自己服务。从数据清洗到向量化，再到最终的智能问答，Strix Halo 用其独特的统一内存架构和多核性能，证明了本地跑大模型不再是极客的玩具，而是普通人也能驾驭的生产力工具。

如果你也想构建一个完全属于自己的、安全可控的知识库系统，现在的硬件条件已经成熟。剩下的，就是动手去搭建了。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

深入解析 ROCm 7.x 新特性，看它如何加速大模型推理

本文深入解析 ROCm 7.x 新特性，揭示其如何通过 hipBLASLt 稀疏优化、HIP 编译器指令调度及 vLLM 异步执行流，显著提升大模型推理效率。实测显示长上下文场景延迟降低 20%，为高并发应用提供稳定高性能支持。

AMD开发者中国社区

显存不够用怎么办，量化与重计算策略在 vLLM 中的实战

本文详解 vLLM 在 ROCm 环境下解决显存不足的实战策略。通过 FP8 量化降低权重占用，利用激活值重计算以时间换空间，并优化 Block Size 减少碎片。这些方法显著提升 AMD GPU 上的大模型并发能力与推理效率。

AMD开发者中国社区

从零开始在 Instinct GPU 上部署 vLLM，避开环境配置那些坑

摘要本文提供了一份在AMD ROCm环境下编译部署PyTorch的完整实战指南。主要内容包括：1)环境准备与权限配置，强调用户组设置和编译器版本检查；2)驱动验证与GPU架构识别，通过rocm-smi和rocminfo工具确认硬件状态；3)源码编译关键步骤，重点说明PYTORCH_ROCM_ARCH等环境变量设置；4)部署优化实践，介绍vLLM服务的显存调优和启动参数配置。文章针对ROCm平台的