基于Ollama与LangChain的本地RAG知识库搭建与优化实践

检索增强生成（RAG）是解决大模型幻觉与知识过时问题的关键技术范式，其核心原理在于通过检索外部知识库来增强生成过程的准确性与时效性。该技术通过将非结构化文档进行向量化表示，并利用语义相似度检索，为大模型提供精准的上下文信息，从而显著提升问答、摘要等任务的可靠性与事实依据。在工程实践中，RAG技术常与LangChain等应用框架结合，实现从文档加载、文本分割到检索生成的全流程编排。本文聚焦于一个典型

兔尾巴老李

251人浏览 · 2026-05-17 12:03:17

兔尾巴老李 · 2026-05-17 12:03:17 发布

1. 项目概述：一个本地化的RAG研究助手

最近在折腾本地大模型应用的朋友，估计对RAG这个词都不陌生。RAG，也就是检索增强生成，它解决了大模型“一本正经胡说八道”和知识过时的问题，让模型能基于你提供的文档库来回答问题，答案更准、更有据可循。今天要聊的这个项目 kaymen99/local-rag-researcher-deepseek ，就是一个典型的、开箱即用的本地RAG应用实现。

简单来说，它就是一个部署在你自己电脑上的“私人研究助理”。你给它喂一堆文档——可以是论文、技术手册、公司内部文档，或者任何你感兴趣的文本资料——然后你就可以像问一个专家一样，用自然语言向它提问。它会从你的文档库里找到最相关的信息片段，然后组织成一段通顺、准确的回答。整个流程完全在本地运行，你的数据不出本地，隐私和安全有保障，而且完全免费，不用担心API调用次数和费用。

这个项目的核心价值在于它的“一体化”和“易用性”。它不是一个需要你从零开始拼凑各种组件的框架，而是一个已经将文档加载、文本切分、向量化、检索、生成等环节集成好的应用。作者 kaymen99 选用了当前社区里比较热门且成熟的组件，比如 Ollama 来运行本地大模型， Chroma 作为向量数据库， LangChain 作为应用编排框架，并针对 DeepSeek 模型做了适配和优化。对于想快速体验或搭建一个本地知识库问答系统的开发者来说，这个项目提供了一个非常清晰的参考样板和起点。

2. 核心架构与组件选型解析

2.1 为什么选择这样的技术栈？

这个项目的技术栈选择，反映了一个务实开发者对于构建本地RAG应用的典型思考。我们逐一拆解：

2.1.1 模型层：Ollama + DeepSeek

Ollama 是目前在个人电脑上运行开源大模型最方便的工具，没有之一。它把复杂的模型下载、环境配置、服务启动封装成了几条简单的命令。你不需要关心CUDA版本、PyTorch安装这些令人头疼的依赖问题， ollama run 命令就能把模型跑起来。项目选择它作为模型服务底座，极大地降低了使用门槛。

至于为什么是 DeepSeek ？在开源模型领域， DeepSeek 系列（特别是 DeepSeek-Coder 和 DeepSeek-V2 ）在代码理解、推理能力和中英文表现上都非常出色，而且对上下文长度的支持也很大（动辄128K甚至更长），这对于需要处理长文档的RAG场景至关重要。相比于动辄几十GB的 Llama 3 70B， DeepSeek 的一些小尺寸版本（如7B）在保持不错能力的同时，对个人电脑的硬件更加友好。作者选择适配 DeepSeek ，显然是看中了其在性能、效率和中文场景下的综合优势。

2.1.2 向量数据库：Chroma

Chroma 是一个轻量级、易嵌入的向量数据库。它的最大优点就是“简单”。你不需要像部署 Milvus 或 Weaviate 那样启动一个独立的后端服务， Chroma 可以直接作为一个Python库导入，数据以文件形式存储在本地。对于个人或小团队的应用场景，这种“内置式”的数据库减少了系统复杂度，部署和调试都更方便。虽然它在处理超大规模向量（比如上亿条）时可能不是最优选，但对于绝大多数本地知识库项目（文档量在万级甚至十万级以内）来说， Chroma 完全够用，且性能表现良好。

2.1.3 应用框架：LangChain

LangChain 是构建大模型应用的“脚手架”或“粘合剂”。它抽象了LLM调用、提示词模板、记忆、链式调用等通用模式。在这个项目中， LangChain 负责将“文档加载 -> 文本分割 -> 向量化入库 -> 用户提问 -> 检索 -> 组织提示词 -> 调用模型生成”这一整套流程串联起来。使用 LangChain 并不意味着代码更少，但它让代码结构更清晰，各个模块（如文档加载器、文本分割器、检索器）可以像乐高积木一样替换和组合，未来如果你想换一个文本分割策略或者换一个检索器，改动会非常局部化。

注意：虽然 LangChain 很方便，但它也因抽象层次高、有时显得“笨重”而受到一些批评。在这个项目中，它更多是作为流程编排的核心。对于追求极致性能和控制的开发者，未来可以考虑用 LlamaIndex 替代，或者直接使用底层SDK进行更精细的控制。

2.2 整体工作流设计

理解了组件，我们来看它们是如何协同工作的。整个系统的工作流可以清晰地分为两个阶段： 知识库构建（索引） 和 问答（检索与生成） 。

索引阶段 ：

文档加载 ：系统支持多种格式的文档，如PDF、Word、TXT、Markdown，甚至网页。 LangChain 提供了相应的 DocumentLoader 。
文本分割 ：这是非常关键的一步。你不能把整本书直接扔给模型，需要切成有意义的片段（chunk）。常见的策略是按固定长度（如500字符）重叠滑动窗口切割，或者按段落、标题进行语义分割。分割的质量直接影响检索的准确性。
向量化 ：将每个文本片段通过一个嵌入模型（Embedding Model）转换成高维向量（比如768维或1536维的浮点数数组）。这个向量就像是这段文本的“数学指纹”，语义相近的文本，其向量在空间中的距离也更近。项目通常会使用 sentence-transformers 库中的轻量级模型，如 all-MiniLM-L6-v2 。
存储：将文本片段、其对应的向量以及元数据（如来源文件名、页码）一并存入 Chroma 向量数据库。

问答阶段 ：

问句向量化 ：当用户提出一个问题时，系统使用同样的嵌入模型将问题也转换为向量。
语义检索 ：在 Chroma 数据库中，进行向量相似度搜索（通常使用余弦相似度），找出与问题向量最接近的Top-K个文本片段（例如，最相关的3-5段）。
上下文构建 ：将这些检索到的文本片段，连同用户的问题，按照预设的提示词模板组装成一段完整的“上下文”，输入给大模型。
生成答案 ：大模型（如通过Ollama运行的DeepSeek）基于这个包含了相关参考资料的上下文，生成最终的回答。模型被指令要基于提供的上下文回答，如果上下文里没有相关信息，就诚实地说不知道。

这个流程就是RAG的核心思想： Retrieval（检索） 找到相关知识， Augmented（增强） 到提示词中， Generation（生成） 出最终答案。

3. 环境搭建与快速启动实操

3.1 基础环境准备

在开始之前，确保你的开发环境已经就绪。这个项目主要基于Python，所以Python环境是必须的。我强烈建议使用 conda 或 venv 创建独立的虚拟环境，避免包依赖冲突。

# 使用 conda 创建环境（推荐）
conda create -n local-rag python=3.10
conda activate local-rag

# 或者使用 venv
python -m venv local-rag-env
# Windows
local-rag-env\Scripts\activate
# Linux/Mac
source local-rag-env/bin/activate

接下来，克隆项目代码到本地。

git clone https://github.com/kaymen99/local-rag-researcher-deepseek.git
cd local-rag-researcher-deepseek

3.2 核心依赖安装

查看项目的 requirements.txt 或 pyproject.toml 文件，安装必要的Python库。通常核心依赖包括：

pip install langchain langchain-community chromadb sentence-transformers pypdf python-dotenv

langchain , langchain-community : 应用编排框架及社区贡献的组件。
chromadb : 向量数据库。
sentence-transformers : 用于生成文本向量的嵌入模型库。
pypdf : 用于解析PDF文档。
python-dotenv : 管理环境变量。

此外，你需要安装 Ollama 。访问其官网，根据你的操作系统（Windows、macOS、Linux）下载并安装。安装完成后，打开终端，启动Ollama服务（通常安装后会自动运行），然后拉取你需要的DeepSeek模型。

# 拉取DeepSeek模型，例如较小的7B版本
ollama pull deepseek-coder:6.7b
# 或者如果你想尝试更新的版本
ollama pull deepseek-r1:7b

模型下载需要一些时间，取决于你的网速。 deepseek-coder:6.7b 大约4-5GB， deepseek-r1:7b 可能更大一些。请确保你的磁盘有足够空间。

3.3 配置文件与项目结构解读

在运行前，我们最好先浏览一下项目结构，理解各个文件的作用。一个典型的项目结构可能如下：

local-rag-researcher-deepseek/
├── app.py                    # 主应用入口，可能是命令行或简单的Web界面
├── config.py                 # 配置文件，集中管理模型路径、Chroma存储路径等参数
├── core/
│   ├── document_loader.py   # 文档加载模块
│   ├── text_splitter.py     # 文本分割策略模块
│   ├── vector_store.py      # 向量数据库初始化与操作模块
│   └── chain.py             # 定义检索问答链（RAG Chain）的核心模块
├── data/                    # 存放待处理的原始文档
├── chroma_db/               # Chroma数据库的持久化存储目录（通常由代码自动创建）
├── requirements.txt
└── README.md

关键配置项 ：你需要关注 config.py 或类似文件中的几个关键配置：

嵌入模型（Embedding Model） ：默认可能是 all-MiniLM-L6-v2 。这个模型平衡了速度和效果。如果你的文档主要是中文，可以考虑换成 paraphrase-multilingual-MiniLM-L12-v2 或 text2vec 系列的中文模型，但需要确认 sentence-transformers 是否支持。
文本分割参数 ： chunk_size （片段大小）和 chunk_overlap （重叠长度）。 chunk_size 通常设置在500-1000之间，需要匹配你所选用的大模型的上下文窗口。 chunk_overlap 设为 chunk_size 的10%-20%，可以避免一个句子被生生切断导致语义不完整。
Ollama模型名称 ：确保这里配置的模型名（如 deepseek-coder:6.7b ）与你用 ollama pull 下载的模型一致。
检索参数 ： search_kwargs={"k": 4} 中的 k 值，决定了每次检索返回多少相关片段。太少可能信息不足，太多可能引入噪声并消耗更多上下文长度。一般从3-5开始调整。

3.4 首次运行：构建你的第一个知识库

假设项目提供了一个简单的脚本。通常步骤是：

将你的文档（PDF、TXT等）放入 data/ 目录。
运行索引构建脚本。这个脚本会完成加载、分割、向量化、存储的全过程。

# 假设有一个构建索引的脚本
python build_index.py --data_dir ./data

运行过程中，终端会显示正在处理的文件、分割出的片段数量等信息。完成后，会在项目根目录下生成一个 chroma_db 文件夹，里面就是向量数据库文件。

启动问答界面。这可能是一个简单的命令行交互界面。

python app.py

启动后，根据提示输入你的问题，系统就会从知识库中检索并生成答案。

实操心得 ：第一次运行时，建议先用一个小的、熟悉的文档（比如一篇你读过的技术博客的Markdown文件）进行测试。这样可以快速验证整个流程是否通畅，并且你对答案的质量有一个基准判断。如果直接用几百页的PDF开始，一旦出问题，调试范围会很大。

4. 核心模块深度定制与优化

4.1 文档加载与文本分割的精细化处理

默认的文档加载和分割可能不适合你的特定资料。例如，处理PDF时，默认加载器可能无法很好地保留表格格式或复杂的排版；按固定长度分割可能会把一张表格或一个代码块切得支离破碎。

4.1.1 增强PDF处理 对于复杂的PDF（特别是扫描件或包含大量图表、公式的学术论文），可以考虑使用 unstructured 库。它提供了更强大的解析能力，能识别页面中的不同元素（标题、正文、列表、表格）。

# 示例：使用 unstructured 加载PDF
from langchain.document_loaders import UnstructuredPDFLoader
loader = UnstructuredPDFLoader("your_file.pdf", mode="elements") # mode="elements" 可以获取更细粒度的元素
documents = loader.load()

4.1.2 实现语义分割 与其盲目地按固定长度切分，不如尝试按语义边界分割。 LangChain 提供了 RecursiveCharacterTextSplitter ，它可以优先按段落、换行符、句子等分隔符进行分割，如果片段还是太长，再递归地按字符分割。这是一种更智能的折中方案。

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", "。", "！", "？", "；", "，", " ", ""] # 中文分隔符
)
split_docs = text_splitter.split_documents(documents)

对于技术文档或代码，可以尝试 MarkdownHeaderTextSplitter ，它能根据Markdown的标题层级（#， ##）来组织分割后的文档，保留文档结构信息，这对于检索非常有益。

4.2 检索策略的优化：超越简单的向量搜索

默认的检索是简单的向量相似度搜索（语义搜索）。但在实际应用中，尤其是知识库内容庞杂时，可以引入混合搜索（Hybrid Search）来提升召回率。

4.2.1 关键词搜索（稀疏检索）与语义搜索（稠密检索）结合

语义搜索 ：长处是理解意图。比如搜索“如何优化Python循环”，它能找到关于“提升Python代码执行效率”的段落。
关键词搜索 ：长处是精确匹配术语。比如搜索“PyTorch nn.Module”，它能精确找到包含这个类名的段落。

Chroma 支持同时进行这两种搜索，并将结果按权重合并。你可以在创建检索器时启用它。

# 在创建向量库时启用
vectorstore = Chroma.from_documents(
    documents=split_docs,
    embedding=embedding_model,
    persist_directory="./chroma_db",
    collection_metadata={"hnsw:space": "cosine"} # 使用余弦相似度
)
# 创建检索器时，指定使用混合检索
retriever = vectorstore.as_retriever(
    search_type="similarity", # 或者 "mmr" (最大边际相关性)
    search_kwargs={"k": 4, "fetch_k": 20} # fetch_k 是初步检索的数量，用于MMR或混合检索
)
# 更高级的混合检索可能需要直接调用Chroma的 `similarity_search_with_score` 并组合BM25等算法，这可能需要更多自定义代码。

4.2.2 重排序（Re-ranking） 初步检索可能返回几十个相关片段，但最相关的未必排在第一位。引入一个轻量级的重排序模型（如 BAAI/bge-reranker-base ），对Top-N个初步结果进行精排，可以显著提升最终送入大模型的上下文质量。这属于“检索后处理”的优化。

4.3 提示词工程：引导模型生成更好的答案

提示词是连接检索结果和最终答案的桥梁。一个糟糕的提示词会让模型忽略你精心检索到的上下文。项目的 chain.py 里应该定义了一个提示词模板。一个健壮的RAG提示词通常包含以下部分：

from langchain.prompts import PromptTemplate

template = """
你是一个专业的助手，请严格根据以下提供的上下文信息来回答问题。如果上下文中的信息不足以回答问题，请直接说“根据提供的资料，我无法回答这个问题”。不要编造信息。

上下文信息：
{context}

问题：{question}

请基于上下文，给出准确、清晰的回答：
"""
prompt = PromptTemplate.from_template(template)

优化点 ：

角色设定 ：明确模型的身份（如“技术专家”、“法律顾问”），可以影响其回答的语气和深度。
指令清晰 ：强调“严格根据上下文”，并明确处理“未知问题”的方式，这是减少幻觉的关键。
结构化输出 ：如果需要，可以要求模型以特定格式（如列表、步骤、摘要）输出。
Few-shot示例 ：在提示词中加入一两个例子，展示你期望的问答格式和深度，这对于复杂任务特别有效。

4.4 大模型调用与参数调优

通过 Ollama 调用 DeepSeek 模型时，可以通过参数控制生成效果。在创建 LLM 对象时，可以设置：

from langchain.llms import Ollama
llm = Ollama(
    model="deepseek-coder:6.7b",
    temperature=0.1, # 温度值，越低输出越确定、保守，适合事实性问答；越高越有创造性。
    num_predict=512, # 生成的最大token数，根据你的问题长度和上下文长度调整。
    top_p=0.9, # 核采样参数，与temperature配合控制随机性。
    repeat_penalty=1.1, # 重复惩罚，避免模型陷入重复循环。
)

temperature ：对于知识问答，建议设置较低（0.1-0.3），让答案更稳定、更基于事实。
num_predict ：需要根据你的上下文长度和期望的回答长度来设定。如果总上下文（问题+检索片段）很长，而答案很短，可以设小一点以节省时间。
top_p 和 repeat_penalty ：微调生成质量，如果发现答案有奇怪的重复或跑题，可以调整这两个参数。

5. 性能调优、问题排查与进阶思考

5.1 常见问题与解决方案速查表

在实际部署和运行中，你肯定会遇到各种问题。下面这个表格整理了一些典型问题及其排查思路：

问题现象	可能原因	排查步骤与解决方案
回答“根据上下文，我无法回答”，但明明资料里有相关内容。	1. 检索失败，没找到相关片段。 2. 检索到的片段质量差，信息不完整。 3. 提示词太强，模型过于保守。	1. 检查检索：打印出每次检索实际返回的片段（ `context` ），看是否相关。可尝试增大 `k` 值。 2. 优化分割：检查文本分割是否合理，是否切断了关键信息。调整 `chunk_size` 和 `chunk_overlap` ，或改用语义分割。 3. 调整提示词：软化指令，如改为“请主要参考以下上下文，并结合你的知识进行补充”。
回答包含事实错误或“幻觉”。	1. 检索到了错误或无关的片段。 2. 模型忽略了上下文，自行发挥了。 3. 上下文本身有冲突信息。	1. 改进检索：尝试混合搜索或重排序，提升检索精度。 2. 强化提示词：在提示词中更严厉地要求“必须引用上下文中的原话”或“列出依据的片段”。 3. 后处理验证：实现一个简单验证，让模型在回答时引用片段编号，便于人工复核。
处理速度很慢，尤其是构建索引时。	1. 嵌入模型太大或计算慢。 2. 文档数量多，单线程处理。 3. 硬件（CPU/GPU）性能不足。	1. 换轻量嵌入模型：如 `all-MiniLM-L6-v2` 已经很快，还可尝试 `paraphrase-albert-small-v2` 。 2. 并行处理：使用多进程或异步IO来并行处理文档加载和向量化。 3. 硬件加速：确保 `sentence-transformers` 使用了GPU（如果有）。对于Ollama，也可尝试指定GPU层数。
Ollama模型加载失败或响应超时。	1. 模型名称错误。 2. Ollama服务未启动或崩溃。 3. 内存不足。	1. `ollama list` 确认模型存在且名称正确。 2. 重启Ollama服务 ( `ollama serve` )。 3. 检查任务管理器，确保内存足够。尝试更小的模型。
Chroma数据库报错或无法持久化。	1. 存储路径权限问题。 2. 版本不兼容。 3. 数据库文件损坏。	1. 检查 `chroma_db` 目录的读写权限。 2. 确保 `chromadb` 版本与代码兼容。可尝试删除 `chroma_db` 目录重建索引。 3. 备份数据，删除旧数据库文件，重新构建索引。

5.2 性能优化实践

当你的知识库文档达到数千甚至上万时，性能问题就会凸显。

索引阶段优化 ：

批处理嵌入 ： sentence-transformers 的 encode 函数支持传入字符串列表进行批处理，比循环单条处理快得多。
增量更新 ：避免每次全量重建索引。设计一个机制，只对新加入或修改的文档进行向量化并插入数据库。 Chroma 支持 add_documents ，但需要你自行管理文档ID和去重逻辑。

查询阶段优化 ：

缓存：对常见问题的检索结果进行缓存。可以使用 langchain 的 CacheBackedEmbeddings 对嵌入向量进行缓存，或者使用 Redis 等缓存完整的问答对。
检索器优化 ：调整 search_kwargs 。例如， fetch_k 参数在MMR检索中用于先获取更多候选，再筛选。适当调整可以在召回率和速度间取得平衡。

5.3 安全与隐私考量

这是本地RAG的核心优势，但也需注意：

模型安全 ：确保从官方渠道（如Ollama官方库）拉取模型，避免恶意篡改的模型。
提示词注入 ：虽然数据在本地，但如果你的应用提供了Web界面，需防范用户通过精心设计的输入进行提示词注入攻击，诱导模型执行不当操作或泄露系统提示词。需要对用户输入进行适当的清洗和过滤。
数据残留 ：当从向量数据库删除文档时，确保其对应的向量也被彻底删除。定期审查数据库内容。

5.4 项目扩展方向

这个项目是一个优秀的起点，你可以在此基础上进行很多扩展：

多模态RAG ：除了文本，支持图片、表格。可以使用多模态大模型（如 LLaVA ）或专门的OCR、表格提取工具，将非文本信息转为描述性文本后再入库。
智能体（Agent）能力 ：让RAG系统不仅能回答问题，还能根据问题自主调用工具（如计算器、搜索API、执行代码）来完成任务。 LangChain 提供了 Agent 的框架。
Web UI ：使用 Gradio 或 Streamlit 快速搭建一个美观的图形界面，方便非技术用户使用。
接入更多数据源 ：支持从Notion、Confluence、飞书、钉钉等平台同步文档，实现企业知识库的自动化构建。
评估与监控 ：构建一个评估体系，用一批标准问题测试系统的回答质量，监控检索命中率、回答准确率等指标，持续迭代优化。

这个项目就像给你提供了一辆组装好的赛车底盘和引擎（RAG流程），而如何根据不同的赛道（应用场景）调整悬挂、变速箱和空气动力学（分割策略、检索算法、提示词），甚至为它加装新的武器（多模态、智能体），才是真正体现你作为驾驶者和工程师价值的地方。从成功运行第一个demo，到打造一个稳定、高效、智能的专属知识库系统，中间还有大量的细节需要打磨和探索。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

从PyTorch训练到Intel CPU部署：一条龙搞定YOLOv5模型优化与OpenVINO推理加速

本文详细介绍了从PyTorch训练到Intel CPU部署YOLOv5模型的完整流程，重点讲解了如何使用OpenVINO工具包进行模型优化与推理加速。通过实战案例展示了如何将训练好的YOLOv5模型转换为ONNX格式，并利用OpenVINO的模型优化器进行性能提升，最终实现高效部署。文章还提供了常见问题的解决方案，帮助开发者快速掌握端到端的模型部署技术。

AMD开发者中国社区

为什么你的Perplexity本地服务响应慢3.7倍？：NVIDIA驱动版本、vLLM推理后端与量化精度的隐性博弈

揭秘Perplexity本地服务查询响应慢的根源：实测发现NVIDIA驱动版本、vLLM推理后端配置与量化精度三者存在隐性冲突，优化后性能提升3.7倍。适用于自建LLM服务场景，提供可复现调优方案。值得收藏，点击了解完整诊断与加速指南。

AMD开发者中国社区

别再乱用BatchNorm了！PyTorch实战：LayerNorm、InstanceNorm、GroupNorm到底怎么选？

本文深入探讨了PyTorch中四种常用归一化技术（BatchNorm、LayerNorm、InstanceNorm、GroupNorm）的适用场景与选择策略。通过对比分析各技术的计算维度和实战代码示例，帮助开发者根据任务需求（如batch size、数据类型等）做出明智选择，避免常见使用误区，提升深度学习模型性能。