基于ChromaDB与Ollama构建本地语义搜索系统：释放个人创意档案价值

向量数据库与嵌入模型是构建现代语义搜索系统的核心技术基础。其原理在于将文本内容转化为高维向量表示，通过计算向量间的相似度来理解语义关联，而非传统的关键词匹配。这一技术价值在于能够实现更精准、更智能的信息检索，尤其适用于处理非结构化、语义丰富的创意内容。在应用场景上，语义搜索广泛用于知识管理、内容推荐和智能问答等领域。本文聚焦于个人创意档案的管理，利用ChromaDB这一轻量级向量数据库和Ollam

孙玲的空间

553人浏览 · 2026-05-27 15:28:00

孙玲的空间 · 2026-05-27 15:28:00 发布

1. 项目概述：从个人创意档案的“沉睡”到“唤醒”

作为一名长期在创意领域（无论是写作、设计、编程还是其他任何需要持续产出的工作）耕耘的人，我猜你和我一样，电脑里躺着一个庞大的“创意档案库”。它可能是成百上千个Markdown笔记、设计稿源文件、代码片段、项目草稿，甚至是随手记录的灵感碎片。这些文件是我们过去思考的结晶，但绝大多数时候，它们都静静地躺在文件夹里，除了偶尔通过文件名搜索，几乎无法被有效复用。我经常遇到这样的困境：我模糊记得半年前写过一段关于“用户引导流程”的精彩论述，或者画过一个“暗色系数据图表”的草图，但具体内容是什么？放在哪个文件里？用关键词搜了半天，要么一无所获，要么被海量不相关的结果淹没。文件名搜索的局限性太大了，它只能匹配字面，无法理解内容背后的语义。

这就是我启动这个项目的初衷： 为我的个人创意档案建立一个基于语义的“第二大脑” 。我不再满足于“这个文件里有没有这个词”，而是想知道“哪些文件在讨论类似的概念或想法”。最终，我选择的技术栈是 ChromaDB 和 Ollama 。ChromaDB 是一个轻量级、易用的向量数据库，专门为存储和检索嵌入向量（Embeddings）而设计；Ollama 则是一个让我能在本地笔记本电脑上轻松运行大型语言模型（LLM）的工具，它提供了生成文本嵌入和对话的能力。这个组合完美地解决了我的核心需求：在完全本地、隐私安全的前提下，实现对我个人文档的语义化搜索。

简单来说，这个系统的工作流程是：将我所有的文档“喂”给一个本地运行的嵌入模型（通过Ollama），模型将每段文本转换成一个高维度的数字向量（可以理解为这段文本的“数学指纹”），然后存入ChromaDB。当我进行搜索时，搜索词同样被转换成向量，ChromaDB会快速找出数据库中与这个搜索向量“最相似”的文档向量，从而返回语义上最相关的结果，而非仅仅字面匹配的结果。

2. 技术选型与架构设计思路

为什么是 ChromaDB + Ollama？这个选择背后有一系列针对个人开发者场景的考量。

2.1 为什么选择向量数据库（ChromaDB）？

传统搜索引擎（如操作系统自带的搜索）基于倒排索引，核心是关键词匹配。这对于代码、配置文件名很有效，但对于自然语言描述的创意内容，效果很差。语义搜索的核心在于 向量相似度计算 。每段文本被模型转化为一个向量（一组数字），语义相近的文本，其向量在空间中的距离也更近。

我需要一个地方来存储和快速检索这些向量。这就是向量数据库的用武之地。在众多选择中（如 Pinecone、Weaviate、Qdrant），我选择 ChromaDB 主要基于以下几点：

极致简单与轻量 ：ChromaDB 的 API 设计非常直观，几行代码就能完成客户端连接、集合创建、数据插入和查询。它可以直接运行在内存中或持久化到本地磁盘，无需复杂的服务部署，完美契合个人项目“开箱即用”的需求。
本地优先与隐私 ：所有数据（原始文档、向量）完全留在我的本地机器上。对于创意档案这种包含大量未公开想法和草稿的敏感内容，隐私是底线。ChromaDB 的本地模式让我完全掌控数据。
与Python生态无缝集成 ：我的数据处理脚本主要用Python编写，ChromaDB 的 Python 客户端成熟且稳定，与后续的文本处理、模型调用 pipeline 可以轻松整合。
足够的性能 ：对于个人规模的文档库（几千到几万份文档），ChromaDB 的检索速度是毫秒级的，完全满足交互式搜索的需求。

注意：如果你的文档库超过十万级，或者需要分布式部署，可能需要评估 Qdrant 或 Weaviate。但对于绝大多数个人和中小型团队，ChromaDB 的简洁性是无敌的优势。

2.2 为什么选择本地大模型工具（Ollama）？

生成文本嵌入向量需要嵌入模型。虽然 OpenAI 的 text-embedding-ada-002 等API服务效果很好，但存在成本、网络延迟，更重要的是 隐私和离线可用性 问题。我的创意档案搜索必须能在断网环境下工作。

Ollama 的出现解决了这个问题。它本质上是一个本地化的模型管理器和推理服务器。

模型管理傻瓜化 ：通过简单的命令行（如 ollama pull nomic-embed-text ）就能下载各种开源模型，包括优秀的嵌入模型（如 nomic-embed-text , bge-m3 , mxbai-embed-large ）和对话模型（如 llama3 , qwen , mistral ）。它自动处理模型依赖和运行环境。
统一的API接口 ：Ollama 提供了与 OpenAI API 格式兼容的本地端点（ http://localhost:11434 ）。这意味着，我原来为 OpenAI API 写的代码，几乎只需修改 base_url 就能无缝切换到本地模型，迁移成本极低。
资源消耗可控 ：Ollama 允许你选择适合你硬件（尤其是GPU内存）的模型。对于嵌入任务，我可以选择参数量较小的专用嵌入模型，它们通常比通用的对话模型更小巧、更高效，在CPU上也能流畅运行。
活跃的社区与模型库 ：Ollama 维护的模型库持续更新，能紧跟开源社区的最新进展，确保我能用到当前效果最好的开源嵌入模型。

整体架构图（概念层面） ：

[本地文档库] 
      ↓ (文本提取与分块)
[文本片段] 
      ↓ (通过Ollama调用本地嵌入模型)
[向量嵌入] 
      ↓ (存储)
[ChromaDB 向量数据库]
      ↑
[用户查询] → [Ollama嵌入模型] → [查询向量] → [相似度检索] → [返回最相关的文档片段]

这个架构完全运行在本地，数据不出私域，且具备了理解语义的能力。

3. 核心实现步骤详解

下面，我将拆解整个构建过程，从环境准备到最终实现一个可用的搜索命令行工具。

3.1 环境准备与工具安装

首先，确保你的机器上已经安装了 Python（建议3.8以上版本）和 pip。然后，我们通过命令行安装必要的库。

# 安装 ChromaDB 客户端和基础依赖
pip install chromadb

# 安装用于文档加载和处理的常用工具
# langchain 提供了丰富的文档加载器和文本分割器，虽然我们不一定用其全部功能，但其工具链非常方便
pip install langchain langchain-community

# 安装 Ollama 的官方 Python 客户端（可选，我们可以直接使用 requests 调用其API）
pip install ollama

# 安装其他可能用到的工具，如用于读取PDF的pypdf，读取Word的python-docx
pip install pypdf python-docx markdown

接下来，安装 Ollama 本体 。请访问 Ollama 官网，根据你的操作系统（Windows/macOS/Linux）下载并安装。安装完成后，打开终端，启动 Ollama 服务（通常安装后会自动运行），然后拉取我们需要的嵌入模型。

# 拉取一个优秀的开源嵌入模型，例如 nomic-embed-text
ollama pull nomic-embed-text
# 你也可以拉取其他模型，如 bge-m3
# ollama pull bge-m3

nomic-embed-text 模型大小适中，在 MTEB 基准测试中表现优异，特别适合长文本嵌入，且对商业用途友好。

3.2 文档加载与文本分块策略

创意档案通常是多种格式的混合体。我的档案库包含 .md , .txt , .pdf , .docx 甚至代码文件。我们需要一个统一的入口来加载它们。

我创建了一个 document_loader.py 模块，利用 langchain 的文档加载器：

import os
from langchain_community.document_loaders import (
    TextLoader,
    UnstructuredMarkdownLoader,
    PyPDFLoader,
    UnstructuredWordDocumentLoader,
)
from typing import List
from langchain.schema import Document

def load_documents_from_directory(directory_path: str) -> List[Document]:
    """从指定目录加载所有支持格式的文档"""
    documents = []
    for root, _, files in os.walk(directory_path):
        for file in files:
            file_path = os.path.join(root, file)
            loader = None
            # 根据文件后缀选择加载器
            if file.endswith('.md'):
                loader = UnstructuredMarkdownLoader(file_path)
            elif file.endswith('.txt'):
                loader = TextLoader(file_path, encoding='utf-8')
            elif file.endswith('.pdf'):
                loader = PyPDFLoader(file_path)
            elif file.endswith('.docx'):
                loader = UnstructuredWordDocumentLoader(file_path)
            # 可以继续添加其他格式...
            
            if loader:
                try:
                    loaded_docs = loader.load()
                    # 为每个文档添加源文件路径作为元数据，方便后续定位
                    for doc in loaded_docs:
                        doc.metadata["source"] = file_path
                    documents.extend(loaded_docs)
                    print(f"成功加载: {file_path}")
                except Exception as e:
                    print(f"加载文件失败 {file_path}: {e}")
    return documents

加载后的文档可能很长（比如一个几十页的PDF），直接将其作为一个整体转换成向量会丢失细节，并且检索精度会下降。因此，我们需要进行 文本分块 。

分块不是简单按字数切割，要尽可能保证语义的完整性。我使用 RecursiveCharacterTextSplitter ，它会优先按段落、句子等自然分隔符进行切割。

from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_documents(documents: List[Document], chunk_size=500, chunk_overlap=50) -> List[Document]:
    """
    将文档分割成较小的块。
    chunk_size: 每个块的最大字符数。
    chunk_overlap: 块之间的重叠字符数，用于保持上下文连贯。
    """
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=["\n\n", "\n", "。", "！", "？", "；", "，", " ", ""] # 中文环境下的分隔符
    )
    split_docs = text_splitter.split_documents(documents)
    print(f"原始文档数: {len(documents)}， 分割后块数: {len(split_docs)}")
    return split_docs

实操心得：分块参数调优 ： chunk_size 和 chunk_overlap 是需要根据你的文档类型调整的最重要参数。对于技术笔记和代码注释， chunk_size=300 可能更合适；对于长篇论述文章， 800 可能更好。 overlap 设置太小可能导致上下文断裂，太大则增加冗余和计算量。我的经验是从 500 和 50 开始，根据搜索结果的质量进行微调。一个检查方法是：随机看几个分块结果，是否是一个完整的语义单元？

3.3 生成嵌入向量并存入ChromaDB

这是核心步骤。我们将分块后的文本通过 Ollama 运行的本地模型转换为向量，并存储到 ChromaDB。

首先，初始化 ChromaDB 客户端并创建一个集合（Collection）。集合是存储相似类型向量的容器。

import chromadb
from chromadb.config import Settings

# 初始化持久化客户端，数据将保存在 `./chroma_db_data` 目录
chroma_client = chromadb.PersistentClient(path="./chroma_db_data")

# 创建一个集合。`embedding_function` 参数我们先传None，因为我们将自己生成向量。
# 注意：集合名最好具有描述性，如果你后续想尝试不同模型或分块方式，可以创建不同集合。
collection = chroma_client.get_or_create_collection(
    name="my_creative_archive_v1", # 集合名称
    metadata={"description": "Creative archive using nomic-embed-text model, chunk_size=500"}
)

接下来，我们需要一个函数来调用 Ollama 服务生成嵌入向量。Ollama 提供了 /api/embed 端点。

import requests
import json

OLLAMA_HOST = "http://localhost:11434"

def get_embedding_from_ollama(text: str, model: str = "nomic-embed-text") -> list:
    """调用本地Ollama服务获取文本的嵌入向量"""
    url = f"{OLLAMA_HOST}/api/embed"
    payload = {
        "model": model,
        "input": text
    }
    try:
        response = requests.post(url, json=payload)
        response.raise_for_status() # 检查HTTP错误
        result = response.json()
        return result.get("embedding", [])
    except requests.exceptions.RequestException as e:
        print(f"调用Ollama嵌入API失败: {e}")
        return []

现在，我们可以遍历所有文本块，生成向量并存入集合。为了效率，我们可以批量处理。

def add_documents_to_collection(split_docs: List[Document], collection, batch_size=100):
    """将文档块批量添加到ChromaDB集合"""
    ids = []
    embeddings = []
    metadatas = []
    documents = []

    for i, doc in enumerate(split_docs):
        text_content = doc.page_content
        # 生成向量
        embedding = get_embedding_from_ollama(text_content)
        if not embedding: # 如果生成失败，跳过该块
            print(f"警告: 第 {i} 块文本生成向量失败，已跳过。")
            continue

        doc_id = f"chunk_{i}"
        ids.append(doc_id)
        embeddings.append(embedding)
        # 元数据存储来源和块索引，便于回溯
        metadatas.append({**doc.metadata, "chunk_index": i})
        documents.append(text_content)

        # 达到批次大小或处理完所有文档时，执行一次批量添加
        if len(ids) >= batch_size or i == len(split_docs) - 1:
            collection.add(
                ids=ids,
                embeddings=embeddings,
                metadatas=metadatas,
                documents=documents
            )
            print(f"已添加批次，累计处理 {i+1}/{len(split_docs)} 个块")
            # 重置批次列表
            ids, embeddings, metadatas, documents = [], [], [], []

    print("所有文档向量已存入ChromaDB。")

执行这个函数，你的创意档案就完成了向量化并存储完毕。这个过程可能需要一些时间，取决于文档数量和模型速度。你可以去喝杯咖啡。

3.4 构建语义搜索查询功能

数据库建好后，搜索就变得非常简单。其逻辑是：将用户的查询语句也转换成向量，然后在数据库中查找最相似的向量。

def semantic_search(query: str, collection, n_results=5):
    """执行语义搜索"""
    # 1. 将查询文本转换为向量
    query_embedding = get_embedding_from_ollama(query)
    if not query_embedding:
        return []

    # 2. 查询ChromaDB
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=n_results,
        include=["documents", "metadatas", "distances"] # 返回文档内容、元数据和相似度距离
    )
    
    # 3. 整理并返回结果
    search_results = []
    if results['documents']:
        for i in range(len(results['documents'][0])):
            search_results.append({
                'content': results['documents'][0][i],
                'source': results['metadatas'][0][i].get('source', 'N/A'),
                'chunk_index': results['metadatas'][0][i].get('chunk_index', 'N/A'),
                'distance': results['distances'][0][i] # 距离越小，相似度越高
            })
    return search_results

为了提升体验，我们可以包装一个简单的命令行交互界面：

def main_search_loop():
    print("=== 个人创意档案语义搜索引擎 ===")
    print("输入你的搜索词（输入 'quit' 退出）")
    while True:
        query = input("\n搜索: ").strip()
        if query.lower() == 'quit':
            break
        if not query:
            continue
        
        print(f"\n正在搜索: '{query}'...")
        results = semantic_search(query, collection, n_results=3)
        
        if not results:
            print("未找到相关结果。")
            continue
            
        for idx, res in enumerate(results, 1):
            print(f"\n--- 结果 {idx} (距离: {res['distance']:.4f}) ---")
            print(f"来源文件: {res['source']}")
            print(f"内容预览:\n{res['content'][:200]}...") # 预览前200字符
            print("-" * 40)

现在，运行 main_search_loop() ，你就可以用自然语言搜索你的档案库了。例如，搜索“如何设计一个友好的用户注册流程”，系统可能会找到你去年写的一篇关于“降低用户注册摩擦的五个UI细节”的笔记，即使这两句话里没有一个相同的词。

4. 效果优化与高级技巧

基础版本已经能工作，但要让它真正好用，还需要一些优化。

4.1 元数据过滤与混合搜索

有时，我们不仅想根据内容语义搜索，还想结合一些条件。比如，“在我去年写的关于‘产品设计’的PPT里，找关于‘用户访谈’的内容”。这需要利用元数据过滤。

ChromaDB 支持对元数据进行过滤。我们在存储时已经包含了 source 路径。我们可以从路径中提取年份、文件类型等信息，或者手动为文档添加标签（如“产品设计”、“技术方案”），存储到元数据中。

# 改进的查询函数，支持元数据过滤
def semantic_search_with_filter(query: str, collection, filter_dict=None, n_results=5):
    query_embedding = get_embedding_from_ollama(query)
    if not query_embedding:
        return []
    
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=n_results,
        where=filter_dict, # 这里传入过滤条件，例如 {"year": "2023"}
        include=["documents", "metadatas", "distances"]
    )
    # ... 后续处理同上

甚至可以实现 混合搜索 （Hybrid Search），即结合关键词（稀疏向量）和语义向量（稠密向量）进行检索，这能同时保证召回率和精确度。ChromaDB 最新版本已开始支持，或者可以使用其他专门库。

4.2 检索增强生成（RAG）集成

单纯的搜索返回文本片段。更进一步，我们可以让 LLM 基于搜索到的片段，生成一个整合性的答案。这就是 RAG。

我们已经在本地运行了 Ollama，它可以运行对话模型（如 llama3 ）。流程是：1. 语义搜索获取相关片段；2. 将这些片段作为上下文，连同用户问题，一起提交给对话模型；3. 模型生成一个连贯、基于你个人档案的答案。

import ollama # 使用ollama python客户端

def rag_answer(query: str, collection, context_chunks=3):
    # 1. 检索相关上下文
    search_results = semantic_search(query, collection, n_results=context_chunks)
    if not search_results:
        return "抱歉，在我的知识库中没有找到相关信息。"
    
    # 2. 构建上下文提示词
    context_text = "\n\n---\n\n".join([res['content'] for res in search_results])
    
    prompt = f"""请基于以下我提供的文档片段，回答用户的问题。如果文档中没有足够信息，请直接说明你不知道。
    
    相关文档片段：
    {context_text}
    
    用户问题：{query}
    
    基于以上信息的回答："""
    
    # 3. 调用本地对话模型生成回答
    response = ollama.chat(model='llama3', messages=[{'role': 'user', 'content': prompt}])
    return response['message']['content']

这样，你就拥有了一个基于个人知识库的、能进行深度问答的“数字助理”。

4.3 增量更新与去重

创意档案是不断增长的。我们不可能每次新增文档都全量重新生成向量。需要支持增量更新。

策略很简单：为新文档生成向量并 add 到现有集合即可。但要注意去重。如果修改了一个已索引的文件，直接添加会导致重复。一个简单的方案是：在元数据中存储文件的 内容哈希值 （如MD5）。在添加新批次前，先计算哈希，如果集合中已存在相同哈希的文档，则先删除旧的再插入新的。更复杂的方案可以跟踪文件修改时间。

5. 常见问题与故障排查

在实际搭建和运行过程中，你可能会遇到以下问题：

5.1 Ollama 服务未启动或模型未下载

症状：调用 get_embedding_from_ollama 时连接被拒绝或超时，或者返回“model not found”错误。
排查：
1. 在终端运行 ollama serve ，确保服务正在运行。检查 http://localhost:11434 是否可以访问。
2. 运行 ollama list 查看已下载的模型列表。确保你使用的模型名（如 nomic-embed-text ）在列表中。
3. 如果模型不存在，使用 ollama pull <model-name> 下载。

5.2 嵌入向量维度不匹配

症状：向 ChromaDB 添加数据时，报错提示嵌入向量维度与集合不匹配。
原因：ChromaDB 集合在第一次插入数据时就确定了向量的维度。如果你之后换用了不同维度的模型（例如从 nomic-embed-text 的768维换到 bge-m3 的1024维），就会出错。
解决：为不同的模型创建不同的集合。或者，删除旧的持久化数据目录（ ./chroma_db_data ）重新开始。

5.3 搜索结果不相关

症状：返回的文档片段与查询意图相差甚远。
可能原因及解决 ：
1. 文本分块不合理 ：块太大或太小。调整 chunk_size 和 chunk_overlap 参数。对于概念密集的文本，块应小一些；对于叙事性文本，块可以大一些。
2. 嵌入模型不适合 ：不同的嵌入模型在不同类型文本和语言上表现有差异。尝试换一个模型，比如 bge-m3 在多语言和长文本上表现也很好。使用 ollama pull bge-m3 下载并修改代码中的模型名。
3. 查询过于简短或模糊 ：尝试用更完整、描述性更强的句子进行搜索，而不是一两个关键词。
4. 数据质量问题 ：检查原始文档的加载和清洗过程。是否有大量无关字符（如HTML标签、乱码）被混入？确保输入模型的文本是干净的。

5.4 处理速度慢

症状：生成向量或搜索查询耗时很长。
优化：
1. 批量处理 ：在 add_documents_to_collection 函数中我们已经使用了批处理，这是最重要的优化。确保 batch_size 设置合理（通常100-500）。
2. 使用GPU ：如果你有 NVIDIA GPU，确保 Ollama 能够利用 CUDA 进行加速。安装正确的 GPU 版本驱动和 CUDA 工具包，Ollama 会自动尝试使用 GPU。
3. 选择更轻量模型 ：如果精度要求可接受，可以尝试更小的嵌入模型，它们生成向量更快。
4. 索引优化 ：ChromaDB 默认使用 HNSW 索引，对于大规模数据（>10万）检索很快。个人使用通常无需调整。

5.5 如何可视化我的向量空间？

有时，你想直观地看到你的文档在向量空间中的分布。你可以使用降维技术（如UMAP或t-SNE）将高维向量降至2D或3D，然后用 matplotlib 或 plotly 画出来。这能帮你理解模型是如何对你的文档进行分类和聚类的，也是一个有趣的调试和探索工具。这需要额外安装 umap-learn 和 plotly 库。

构建这个系统的过程，就像是为自己混乱的书房建立了一个智能图书管理员。它不再需要你记住精确的书名或位置，只要你描述出你想要的内容的大致概念，它就能从各个角落帮你把相关的书籍和笔记找出来。这种能力，对于释放过去创意工作的价值，激发新的灵感连接，有着不可思议的增效作用。整个系统完全运行在本地，没有数据泄露的担忧，运行成本也几乎为零（除了电费）。如果你也受困于日益膨胀的个人数字资产，不妨花一个下午时间，亲手搭建这个属于你自己的“语义记忆外挂”。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

PyTorch深度学习实战（54）——使用TorchScript和ONNX导出通用PyTorch模型

AMD开发者中国社区

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

ESXi 支持哪些 GPU 直通？NVIDIA/AMD 全系列兼容与配置指南

GPU 直通（PCIe Passthrough）是 VMware ESXi 提供的硬件虚拟化技术，通过直接将物理 GPU 设备分配给单台虚拟机独占使用，绕过 ESXi 虚拟化层的资源调度，让虚拟机获得完整的 GPU 算力与功能支持，性能损耗低于 5%，可实现与物理机几乎一致的运行体验。ESXi 对 GPU 直通的支持非常完善，核心兼容型号为 NVIDIA V100/A100/RTX 全系列和 AM