手搓本地 RAG 系统，Ryzen AI 平台文档问答实战

小助手

217人浏览 · 2026-06-12 14:27:00

小助手 · 2026-06-12 14:27:00 发布

对于需要处理私有文档的技术人员来说，数据隐私往往是第一道红线。将敏感的法律合同、医疗记录或内部代码库上传到云端大模型，始终伴随着不可控的泄露风险。AMD Ryzen AI Strix Halo 架构的出现，彻底改变了这一局面。其核心突破在于高达 96GB 的统一内存池设计，打破了传统 CPU 内存与 GPU 显存的物理隔阂。这意味着我们不再受限于消费级显卡那可怜的几 GB 显存，而是可以直接在笔记本上加载参数量巨大的大语言模型（LLM），同时为向量数据库预留充足空间。

在这种架构下，构建一个完全离线、数据不出域的端到端 RAG（检索增强生成）系统变得既经济又高效。NPU 的加入更是点睛之笔，它能以极低的功耗承担矩阵运算，让本地推理在保持高性能的同时，风扇噪音和发热量都控制在舒适范围内。接下来，我们将基于这一硬件平台，手把手搭建一套属于自己的智能知识库。

知识库基石：向量库选型与文档预处理

搭建 RAG 系统的第一步是构建可靠的本地知识库。考虑到端侧资源的限制与易用性，ChromaDB 是极佳的选择。它轻量级、无需独立服务器进程，且能直接嵌入 Python 应用中，非常适合 Ryzen AI 平台的部署环境。相比之下，某些重型数据库在本地运行时往往显得臃肿且配置繁琐。

文档预处理是决定检索质量的关键环节。我们需要编写脚本将 PDF、Word 或 Markdown 格式的原始文档清洗为纯文本。在这个过程中，分块策略（Chunking） 至关重要。建议将分块大小设置在 512 到 1024 token 之间，并保留 10%-20% 的重叠区域，以确保上下文的连贯性，避免关键信息被切断。

利用 Ryzen AI 的多核 CPU 性能，我们可以并行处理大量文档的嵌入（Embedding）计算。选择一个支持本地运行的嵌入模型（如 bge-m3），将文本片段转化为向量存入 ChromaDB。整个过程完全在本地闭环完成，没有任何字节会离开你的设备。

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_chroma import Chroma

# 初始化分块器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,
    chunk_overlap=150,
    length_function=len
)

# 加载本地嵌入模型 (自动利用 CPU/NPU 加速)
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={'device': 'cpu'}, 
    encode_kwargs={'normalize_embeddings': True}
)

# 创建向量库
vectorstore = Chroma.from_documents(
    documents=text_splitter.split_documents(docs),
    embedding=embeddings,
    persist_directory="./local_rag_db"
)

核心链路：LangChain 串联 Ollama 与 NPU 加速

当知识库准备就绪后，接下来是接入本地大语言模型。推荐使用 Ollama 作为推理后端，它对 AMD ROCm 有着良好的支持，能够充分调用 Strix Halo 的 GPU 和 NPU 资源。以部署 Qwen-72B 或 Llama-3-70B 为例，首先下载经过 INT4 量化的 GGUF 格式模型文件。量化不仅大幅降低了内存占用，还能显著提升 NPU 的吞吐效率。

在启动模型时，务必通过环境变量指定后端设备，例如设置 HSA_OVERRIDE_GFX_VERSION 以确保 ROCm 正确识别显卡架构。加载完成后，可以通过本地 API 端口（通常是 localhost:11434）与大模型交互。此时，NPU 将承担主要的推理负载，而 CPU 则专注于任务调度与数据预处理，实现功耗与性能的最佳平衡。

使用 LangChain 可以轻松编排“检索 - 生成”的完整链路。以下代码展示了如何将本地向量库与 Ollama 实例连接，实现毫秒级的问答响应：

from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# 初始化本地 LLM (指向 Ollama 服务)
llm = ChatOllama(
    model="qwen:72b", 
    base_url="http://localhost:11434",
    temperature=0.7
)

# 构建检索器
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# 定义提示词模板
template = """基于以下已知信息，简洁和专业地回答用户的问题。
如果无法从中得到答案，请说“根据已知信息无法回答该问题”，不要编造答案。
已知信息：{context}
问题：{question}
"""
prompt = ChatPromptTemplate.from_template(template)

# 组装链路
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 执行查询
response = rag_chain.invoke("请总结文档中关于数据隐私合规的核心要求？")
print(response)

性能调优与常见报错排查

在实际运行中，可能会遇到一些典型问题，但只要理解 Strix Halo 的硬件特性，解决起来并不困难。

首先是 “Out of Memory” (OOM) 错误。这通常是因为同时加载了过大的嵌入模型和对话模型，导致统一内存池瞬间爆满。解决方案是减小批处理大小（batch size），或者切换至更低比特率（如 INT4 甚至 INT3）的量化版本。Strix Halo 的优势在于内存大，但也要合理分配，避免“贪多嚼不烂”。

其次是 NPU 未被调用 而 CPU 占用率极高的情况。这往往是因为 ROCm 驱动版本与当前内核不匹配，或者环境变量配置有误。需检查是否安装了最新版的 Adrenalin 驱动，并确认 HSA_OVERRIDE_GFX_VERSION 等参数已正确设置。在 Strix Halo 平台上，实测表明即使在高并发查询下，只要配置得当，系统响应依然流畅，且风扇噪音远低于传统服务器方案。

通过这套基于 Ryzen AI 的本地化方案，我们不仅获得了一个高效、低成本的知识管理工具，更重要的是掌握了对数据的绝对控制权。在人工智能飞速发展的当下，这种既能享受大模型红利又能严守隐私底线的技术路径，无疑是企业与个人开发者最值得投入的方向。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer