基于Ollama与AST-RAG构建本地智能代码搜索系统

代码搜索是软件开发中的基础需求，其核心原理是从海量源代码中快速定位目标片段。传统的关键词匹配技术难以理解代码的语义和结构，导致查准率和查全率低下。检索增强生成（RAG）技术通过结合向量检索的效率和大型语言模型的推理能力，为语义搜索提供了新的技术价值。它首先将文档（或代码）切分为片段并向量化存储，检索时根据查询语义召回最相关的片段，再交由大模型生成精准答案。在代码搜索这一特定应用场景中，结合抽象语法

不想不见

397人浏览 · 2026-05-26 16:26:10

不想不见 · 2026-05-26 16:26:10 发布

1. 项目概述：为什么我们需要一个本地代码搜索系统？

如果你和我一样，每天大部分时间都在和代码打交道，那你一定经历过这样的场景：面对一个庞大的、历史悠久的代码仓库，想找一个特定的函数实现，或者想看看某个类在哪里被调用过，常规的全局文本搜索（Ctrl+Shift+F）要么给你返回几百个不相关的结果，要么因为关键词不精确而一无所获。更头疼的是，当你想理解一段复杂逻辑，或者想复用某个设计模式时，文本搜索完全无法理解代码的结构和语义。这就是为什么我们需要一个更智能的代码搜索工具。

传统的解决方案要么是依赖云端服务（如GitHub Code Search），存在数据安全和隐私顾虑；要么是重量级的本地IDE索引，虽然强大但资源消耗巨大，且难以定制和扩展。今天要聊的这个项目，就是尝试用当下最火的两个技术—— Ollama （本地大模型运行工具）和 AST-Aware RAG （基于抽象语法树感知的检索增强生成）——来构建一个轻量、高效、完全本地的智能代码搜索系统。它的核心目标不是简单的字符串匹配，而是让你能用自然语言提问，比如“找出所有处理用户身份验证的类”或者“展示一个使用工厂模式创建数据库连接的例子”，系统能精准地从你的代码库中找出最相关的代码片段。

这个系统的价值在于，它将代码搜索从“关键词匹配”提升到了“语义理解”的层面。通过解析代码的AST（抽象语法树），我们能够捕捉到函数定义、类继承、方法调用、变量类型等结构化信息，再结合本地大模型对自然语言查询的理解能力，实现精准的语义检索。整个过程完全在本地运行，无需网络，不泄露任何代码，对于处理敏感项目或追求极致开发体验的团队来说，是一个非常有吸引力的方案。

2. 核心架构与设计思路拆解

2.1 技术栈选型：为什么是Ollama + AST + RAG？

构建这样一个系统，技术选型是关键。我们选择了Ollama、AST解析和RAG这三者结合，背后有清晰的逻辑。

首先， Ollama 解决了本地大模型运行的问题。它就像一个模型管理器和运行时，让你可以轻松地在本地下载、运行各种开源大模型（如Llama 2、CodeLlama、Mistral等）。相比于直接调用庞大的模型文件或依赖复杂的部署框架，Ollama提供了极其简单的命令行和API，降低了使用门槛。更重要的是，它保证了所有数据处理都在本地完成，满足了隐私和安全的核心诉求。我们选择CodeLlama这类在代码理解上表现优异的模型作为我们的“大脑”。

其次， AST（抽象语法树）解析 是我们实现代码“理解”的基础。与将代码视为纯文本不同，AST是源代码语法结构的一种树状表示。例如，一个函数定义在AST中会是一个清晰的节点，包含名称、参数列表、返回类型、函数体等子节点。通过解析AST，我们可以提取出丰富的、结构化的元数据，比如：

实体类型 ：这是函数、类、变量还是导入语句？
关系：这个类继承了谁？这个方法调用了哪些其他函数？
上下文 ：这个变量是在哪个作用域内定义的？

这些结构化信息是后续进行高质量语义检索的“燃料”。我们选用像 tree-sitter 这样的解析器库，它支持多种语言（Python, JavaScript, Java, Go等），速度快，且能生成统一的AST接口。

最后， RAG（检索增强生成） 框架将前两者串联起来，形成工作流。传统的RAG用于文档问答，其流程是：将文档切分并向量化存入向量数据库；收到查询时，先检索出相关的文档片段；再将片段和问题一起交给大模型生成答案。我们将其适配到代码领域：

索引阶段 ：将代码文件解析成AST，提取有意义的代码块（如函数、类）及其上下文信息，将这些“代码片段”向量化后存入向量数据库。
检索阶段 ：将用户的自然语言查询也向量化，在向量数据库中搜索最相似的代码片段。
生成/回答阶段 ：将检索到的Top-K个相关代码片段，连同原始查询，一起提交给Ollama运行的本地大模型。模型基于这些精准的上下文，生成最终答案（可能是直接返回代码，也可能是解释代码逻辑）。

这个架构的优势在于，它结合了向量检索的效率和大模型的推理能力，同时通过AST注入了代码特有的先验知识，使得搜索结果既相关又准确。

2.2 系统工作流设计

整个系统的工作流可以清晰地分为两个主要阶段：离线索引构建和在线查询服务。

离线索引构建阶段 ：这个阶段的目标是“消化”你的代码库。系统会遍历指定的项目目录，对每一个支持的代码文件进行处理。处理的核心是AST解析器，它会将代码文本转换成树状结构。然后，一个“代码块提取器”会遍历这棵树，识别出有意义的单元。这里的设计要点是：什么算作一个“代码块”？我们通常不会把整个文件作为一个单元，那样太粗糙；也不会把每一行代码都分开，那样丢失了上下文。一个实用的策略是，将每个顶层函数、每个类（包括其内部方法）以及独立的、逻辑完整的代码段（比如一个配置块或一个重要的常量定义）作为一个独立的索引单元。

提取出代码块后，我们需要为它创建一个“文本表示”用于向量化。这里不能直接用源代码字符串，因为里面包含太多无关细节（如空格、特定变量名）。更好的做法是生成一个“规范化”的表示，例如： [函数] calculate_total(items: List[Item]) -> float: 计算商品列表的总价，包含税费计算。 这个表示包含了类型、签名和一句简短的功能描述（描述可以由一个轻量级模型或规则生成）。最后，将这个文本表示通过嵌入模型（Embedding Model）转换成高维向量，并和代码块的元数据（如文件路径、起始行号、原始代码）一起存储到本地的向量数据库（如ChromaDB、Qdrant或FAISS）中。

在线查询服务阶段 ：当用户提出一个问题时，系统启动。首先，用户的自然语言查询（如：“帮我找找用策略模式实现支付接口的地方”）会被同样的嵌入模型转换成查询向量。接着，系统在向量数据库中进行相似度搜索（通常使用余弦相似度），找出与查询向量最接近的若干个代码块向量。这些检索到的代码块，连同其原始代码和路径信息，被组合成提示词（Prompt）的上下文部分。然后，这个精心构造的提示词被发送给通过Ollama加载的本地大模型。大模型的角色不是凭空回忆，而是作为一个“超级代码阅读助手”，基于我们提供的精准上下文，生成最终的回答。回答可能是直接引用代码，也可能是对代码逻辑的总结，甚至是对比不同实现方式的差异。

3. 核心模块实现细节与实操要点

3.1 基于Tree-sitter的AST解析与代码块提取

实现一个健壮的AST解析和代码块提取模块是整个项目的地基。我们选择 tree-sitter ，因为它性能好、支持多语言，并且有一个活跃的社区。

首先，你需要为你的目标编程语言安装对应的 tree-sitter 语法库。例如，对于Python项目，你需要 tree-sitter-python 。通常，这些库可以通过pip安装，或者从源码编译成动态链接库（.so或.dll文件）供 tree-sitter 加载。

# 示例：使用tree-sitter解析Python代码并提取函数
import tree_sitter_python as tspython
from tree_sitter import Language, Parser

# 加载Python语言库
PYTHON_LANGUAGE = Language(tspython.language())
parser = Parser(PYTHON_LANGUAGE)

code_text = """
def calculate_discount(price: float, member_level: str) -> float:
    \"\"\"根据会员等级计算折扣价\"\"\"
    discount_map = {\"gold\": 0.7, \"silver\": 0.8, \"normal\": 0.95}
    rate = discount_map.get(member_level, 1.0)
    return price * rate

class OrderProcessor:
    def __init__(self, items):
        self.items = items
    def process(self):
        total = sum(item.price for item in self.items)
        return total
"""

tree = parser.parse(bytes(code_text, "utf-8"))
root_node = tree.root_node

接下来是最关键的一步：遍历AST并提取有意义的节点。你需要编写一个递归函数来遍历树。 tree-sitter 的查询语言（Query）是一个非常强大的工具，可以让你像写CSS选择器一样，快速定位特定类型的节点。

# 使用Query来捕获所有函数定义和类定义
query_string = """
(function_definition
  name: (identifier) @function.name
  parameters: (parameters) @function.params
  return_type: (_)? @function.return_type
  body: (block) @function.body) @function.def

(class_definition
  name: (identifier) @class.name
  body: (block) @class.body) @class.def
"""
query = PYTHON_LANGUAGE.query(query_string)
captures = query.captures(root_node)

遍历捕获到的节点，你可以轻松地获取函数名、参数、类名等信息。提取出的代码块需要附带丰富的上下文，一个简单的结构体可以这样设计：

@dataclass
class CodeChunk:
    id: str  # 唯一ID，如文件路径+起始行号
    file_path: str
    start_line: int
    end_line: int
    chunk_type: str  # 'function', 'class', 'module', 'block'
    signature: str  # 规范化签名，如 `def calculate_discount(price: float, member_level: str) -> float`
    content: str  # 原始的代码文本
    natural_language_description: str  # 自然语言描述，用于向量化

实操心得 ：在提取代码块时，边界情况处理很重要。比如，如何处理嵌套类内部的函数？我们的策略是，将顶级类作为一个块，而类内部的方法则作为其上下文的一部分，或者在生成类的描述时提及。另外，对于非常长的函数（比如超过50行），考虑是否要进一步拆分成逻辑段落？这需要权衡，拆得太碎会丢失整体逻辑，不拆又可能影响检索精度。一个折中方案是，对于长函数，除了将其作为一个整体块，还可以为其内部重要的逻辑段落（如大的条件分支、循环体）生成额外的“子块”描述。

3.2 向量化与本地向量数据库搭建

提取出的代码块需要转换成机器可以比较的格式——向量。我们使用嵌入模型（Embedding Model）来完成这项工作。对于代码场景，虽然像OpenAI的 text-embedding-ada-002 效果很好，但为了完全本地化，我们可以选择开源模型，例如 BAAI/bge-small-en-v1.5 或专门针对代码训练的 microsoft/codebert-base 。通过Ollama，我们也可以使用一些内置了嵌入能力的模型，或者使用 nomic-embed-text 这样的模型。

# 示例：使用Sentence Transformers加载本地嵌入模型（需先安装sentence-transformers）
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('BAAI/bge-small-en-v1.5')

# 为代码块生成描述并向量化
chunk_description = f"{chunk.signature}. {chunk.natural_language_description}"
embedding_vector = embedder.encode(chunk_description, normalize_embeddings=True)

接下来需要存储这些向量。 ChromaDB 是一个轻量级、易用且完全本地的向量数据库，非常适合这个项目。它允许你以集合（Collection）的形式组织数据，每个数据点包含向量、ID和元数据。

import chromadb
from chromadb.config import Settings

# 初始化一个持久化的ChromaDB客户端
client = chromadb.PersistentClient(path="./code_search_db")
# 创建或获取一个集合（相当于一张表）
collection = client.get_or_create_collection(name="my_codebase")

# 准备批量插入的数据
ids = [chunk.id for chunk in code_chunks]
embeddings = [chunk.embedding.tolist() for chunk in code_chunks] # 假设embedding已计算
metadatas = [{
    "file_path": chunk.file_path,
    "signature": chunk.signature,
    "content": chunk.content,
    "start_line": chunk.start_line,
    "chunk_type": chunk.chunk_type
} for chunk in code_chunks]

# 插入数据
collection.add(
    ids=ids,
    embeddings=embeddings,
    metadatas=metadatas
)

注意事项 ：嵌入模型的维度需要与向量数据库的配置匹配。批量插入时，注意控制批次大小，避免内存溢出。对于超大型代码库（超过10万个代码块），需要考虑分批次索引和可能的数据持久化策略。此外，元数据的设计要精简且有用， file_path 和 start_line 对于快速定位代码至关重要。

3.3 集成Ollama与大模型提示工程

Ollama让本地运行大模型变得非常简单。首先，你需要从Ollama官网下载并安装，然后通过命令行拉取你需要的模型，比如专门为代码优化的 codellama:7b 。

# 拉取模型
ollama pull codellama:7b
# 运行模型服务（默认在11434端口提供API）
ollama run codellama:7b

系统在检索到相关代码块后，需要构造一个有效的提示词（Prompt）给大模型。提示词的设计直接决定了回答的质量。一个针对代码搜索优化的提示词模板可能如下：

你是一个专业的代码助手。请基于以下提供的代码上下文，回答用户的问题。
如果上下文中的代码足以回答问题，请直接引用或解释相关代码。
如果不足以回答，请说明上下文不足，不要编造信息。

上下文代码片段（来自项目）：
{context_code_1}
[文件路径：{path1}, 行号：{line1}]

{context_code_2}
[文件路径：{path2}, 行号：{line2}]

用户问题：{user_query}

请根据以上上下文，给出清晰、准确的回答：

这里的 {context_code_1} 等就是我们从向量数据库检索出来的原始代码内容。将多个片段用清晰的分隔符隔开，并附上来源信息，有助于模型理解和引用。

然后，我们通过HTTP请求调用Ollama的API。

import requests
import json

def ask_ollama_with_context(prompt_text, model="codellama:7b"):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt_text,
        "stream": False, # 设为True可以流式接收，这里简单起见用False
        "options": {
            "temperature": 0.1, # 温度调低，让输出更确定、更专注于上下文
            "num_predict": 512  # 限制生成长度
        }
    }
    response = requests.post(url, json=payload)
    result = response.json()
    return result.get("response", "")

实操心得 ：提示工程是效果优化的关键。除了基本的指令，可以尝试：

角色设定 ：明确告诉模型“你是一个代码搜索专家”，能约束其行为。

格式要求 ：要求模型以特定格式（如Markdown代码块）输出代码，并注明出处，提升可读性。

少样本学习 ：在提示词中提供一两个“问题-上下文-答案”的例子，能显著提升模型遵循指令的能力。

温度（Temperature） ：对于代码生成和搜索这类需要准确性的任务，建议设置为较低的值（如0.1-0.3），以减少随机性。

4. 系统搭建、配置与优化全流程

4.1 环境准备与依赖安装

让我们从零开始，一步步搭建这个系统。首先确保你的开发环境有Python 3.8+和pip。

创建并激活虚拟环境 （推荐）：

python -m venv venv
# Linux/macOS
source venv/bin/activate
# Windows
venv\Scripts\activate

安装核心Python库 ：

pip install tree-sitter tree-sitter-languages  # AST解析
pip install sentence-transformers  # 嵌入模型
pip install chromadb  # 向量数据库
pip install requests  # 调用Ollama API
pip install tqdm  # 进度条（用于索引时显示进度）

安装并配置Ollama ：
- 前往Ollama官网下载对应操作系统的安装包并安装。
- 打开终端，拉取我们需要的模型。对于代码任务， codellama:7b 是一个不错的起点，它在代码理解和生成上比较平衡，对硬件要求相对友好（需要约8GB+内存）。
```
ollama pull codellama:7b
```
- 为了测试，可以先运行一次模型，确保它能正常工作：
```
ollama run codellama:7b
```
输入一段简单代码看看它的回复，然后按 Ctrl+D 退出。

4.2 分步实现与系统集成

现在，我们将各个模块集成起来，创建两个主要的脚本：一个用于构建索引（ index.py ），一个用于处理查询（ query.py ）。

index.py 索引构建脚本核心逻辑：

import os
from pathlib import Path
from tree_sitter import Language, Parser
# ... 导入其他所需模块和自定义的CodeChunk, Embedder等类

class CodeIndexer:
    def __init__(self, repo_path, db_path="./code_db"):
        self.repo_path = Path(repo_path)
        self.db_client = chromadb.PersistentClient(path=db_path)
        self.collection = self.db_client.get_or_create_collection("code_chunks")
        self.embedder = SentenceTransformer('BAAI/bge-small-en-v1.5')
        self.parser = self._init_parser()

    def _init_parser(self):
        # 初始化tree-sitter解析器，加载多种语言
        # 此处需要提前下载好各语言的tree-sitter语法库文件（.so）
        Language.build_library(...) # 具体步骤略，参考tree-sitter文档
        parser = Parser()
        return parser

    def extract_chunks_from_file(self, file_path):
        # 读取文件，根据后缀选择语言，解析AST，提取代码块
        # 返回CodeChunk列表
        pass

    def generate_description(self, code_chunk):
        # 为代码块生成自然语言描述。
        # 初级方案：使用简单的启发式规则，如从函数名、变量名拆分单词，或提取首行注释。
        # 进阶方案：调用一个轻量级的本地模型（如通过Ollama运行一个小模型）来生成描述。
        pass

    def index_repository(self):
        all_chunks = []
        # 遍历代码仓库，支持的文件类型如 .py, .js, .java, .go等
        for ext in ['.py', '.js', '.java', '.go']:
            for file_path in self.repo_path.rglob(f"*{ext}"):
                print(f"Processing {file_path}...")
                chunks = self.extract_chunks_from_file(file_path)
                all_chunks.extend(chunks)

        # 批量生成嵌入向量
        descriptions = [chunk.natural_language_description for chunk in all_chunks]
        embeddings = self.embedder.encode(descriptions, show_progress_bar=True)

        # 准备数据并插入ChromaDB
        ids = [chunk.id for chunk in all_chunks]
        metadatas = [...]
        self.collection.add(ids=ids, embeddings=embeddings.tolist(), metadatas=metadatas)
        print(f"索引构建完成，共处理 {len(all_chunks)} 个代码块。")

if __name__ == "__main__":
    indexer = CodeIndexer("/path/to/your/code/project")
    indexer.index_repository()

query.py 查询服务脚本核心逻辑：

class CodeSearchAgent:
    def __init__(self, db_path="./code_db", ollama_model="codellama:7b"):
        self.client = chromadb.PersistentClient(path=db_path)
        self.collection = self.client.get_collection("code_chunks")
        self.embedder = SentenceTransformer('BAAI/bge-small-en-v1.5')
        self.ollama_url = "http://localhost:11434/api/generate"
        self.model = ollama_model

    def search(self, query_text, top_k=5):
        # 1. 将查询文本向量化
        query_embedding = self.embedder.encode(query_text).tolist()

        # 2. 在向量数据库中检索
        results = self.collection.query(
            query_embeddings=[query_embedding],
            n_results=top_k
        )

        # 3. 格式化检索到的上下文
        contexts = []
        for i in range(len(results['ids'][0])):
            metadata = results['metadatas'][0][i]
            context = f"""代码片段 {i+1}:
{metadata['content']}
[文件：{metadata['file_path']}, 起始行：{metadata['start_line']}]
"""
            contexts.append(context)
        full_context = "\n---\n".join(contexts)

        # 4. 构造提示词
        prompt_template = f"""... [如上文所述的提示词模板] ..."""
        final_prompt = prompt_template.format(context_code=full_context, user_query=query_text)

        # 5. 调用Ollama生成回答
        answer = self._call_ollama(final_prompt)
        return answer, results # 返回答案和原始检索结果（用于显示来源）

    def _call_ollama(self, prompt):
        # ... 同上文的ask_ollama_with_context函数
        pass

if __name__ == "__main__":
    agent = CodeSearchAgent()
    while True:
        query = input("\n请输入你的代码搜索问题 (输入 'quit' 退出): ")
        if query.lower() == 'quit':
            break
        answer, results = agent.search(query)
        print("\n" + "="*50)
        print("回答：")
        print(answer)
        print("\n" + "="*50)
        print("参考来源：")
        for meta in results['metadatas'][0]:
            print(f"- {meta['file_path']}:{meta['start_line']} - {meta['signature'][:50]}...")

运行起来后，你就可以通过命令行与你的代码库进行自然语言对话了。

4.3 效果优化与高级技巧

基础版本搭建完成后，可以从以下几个方向进行优化，显著提升搜索体验：

混合检索策略 ：单纯依靠向量相似度有时会漏掉一些精确匹配的关键词。可以结合传统的文本搜索（如BM25）。例如，先使用BM25进行一轮关键词过滤，再从结果中用向量搜索进行语义排序，或者将两者的分数进行加权融合。
查询扩展与重写 ：用户的查询可能很短或不精确。可以利用大模型对查询进行扩展或重写。例如，用户输入“怎么处理支付？”，系统可以将其重写为“在代码中实现支付处理逻辑的函数或类，包括支付网关调用、状态更新和错误处理”。
分块策略优化 ：
- 重叠分块 ：对于连续的代码块，让它们有少量行重叠，可以避免在边界处丢失重要上下文。
- 层次化索引 ：不仅索引函数/类，也为文件、模块建立索引。当用户查询“整个项目的配置入口”时，可以直接返回文件级别的信息。
元数据增强检索 ：在向量化时，除了代码描述，可以把代码块的类型（函数、类）、所属文件路径（ /src/auth/ 可能暗示了认证相关）、甚至代码中出现的特定技术关键词（如 redis ， kafka ）也作为元数据字段，在检索时对这些字段进行过滤或加权。
缓存机制 ：对于常见的查询或大型代码库，可以将查询向量和对应的Top-K结果缓存起来，下次相同或相似查询时直接返回，大幅提升响应速度。

5. 常见问题、排查与性能调优实录

在实际搭建和运行过程中，你肯定会遇到各种问题。下面是我踩过的一些坑和解决方案。

5.1 安装与依赖问题

问题：安装 tree-sitter 或 sentence-transformers 时编译失败或下载超时。
排查：这通常是由于网络问题或缺少系统编译工具（如 gcc , cmake ）引起。
解决：
- 对于 sentence-transformers ，可以尝试使用国内镜像源安装： pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple 。
- 对于 tree-sitter 的编译问题，确保系统已安装 python3-dev 或对应的开发包。在Ubuntu上可以运行 sudo apt-get install python3-dev build-essential 。
- 如果某个语言的 tree-sitter 语法库无法自动下载，需要手动从GitHub（如 tree-sitter/tree-sitter-python ）克隆仓库，并按照其文档编译生成 .so 文件，然后在代码中指定路径加载。

5.2 索引构建速度慢或内存占用高

问题：处理大型代码库（数十万行）时，索引过程非常缓慢，甚至内存不足。
排查：主要瓶颈可能在嵌入模型计算和向量数据库的批量插入。
解决：
- 分批处理 ：不要一次性将所有代码块的描述文本扔给 embedder.encode() 。使用 batch_size 参数，或者自己写循环分批处理，比如每1000个一批。
- 选择更轻量的嵌入模型 ： BAAI/bge-small-en-v1.5 只有300多MB，在效果和速度之间取得了很好的平衡。如果追求极致速度，可以尝试更小的模型，但需接受一定的精度损失。
- 优化代码块提取 ：检查是否提取了过多、过小的代码块。调整提取规则，过滤掉非常短的（如少于3行）、或可能是模板/自动生成的代码。
- 使用更高效的向量数据库 ： ChromaDB 在默认配置下可能不是性能最高的。对于超大规模数据，可以评估 Qdrant 或 Weaviate ，它们支持更复杂的数据结构和分布式部署。

5.3 搜索效果不理想（查不准、查不全）

问题：提出的问题要么返回不相关的代码，要么根本找不到已知存在的代码。
排查：这是最核心的问题，原因可能来自多个环节。
解决：
1. 检查嵌入模型 ：你用的嵌入模型是否适合代码？尝试用一些代码相关的查询-代码对来测试其相似度计算是否合理。可以考虑微调一个嵌入模型，但这需要标注数据，成本较高。
2. 优化代码块描述 ：自动生成的描述质量太差。尝试改进 generate_description 函数。一个简单有效的方法是：提取函数名/类名，用规则拆分成单词（如 camelCase 或 snake_case ），再组合上参数类型和返回类型。例如， def fetch_user_data(user_id: int) -> Dict: 可以描述为 “fetch user data by user id, returns a dictionary”。
3. 调整检索数量 ： top_k 参数太小可能漏掉相关结果，太大会给大模型带来无关噪音。通常5-10是个不错的起点。可以设计一个评估集，测试不同 top_k 值下的召回率和精度。
4. 审视提示词 ：大模型的回答不好，可能是提示词没给好。在提示词中更明确地要求模型“只基于上下文回答”、“引用具体行号”。可以尝试在提示词中提供几个好的示例（Few-shot Learning）。

5.4 Ollama模型响应慢或内容空洞

问题：查询响应时间很长，或者模型回复“我找不到相关信息”之类的空话。
排查：模型推理速度受硬件（CPU/GPU）和模型大小影响。内容空洞则可能是上下文不足或模型能力有限。
解决：
- 硬件：如果可能，确保Ollama使用了GPU进行推理（需要NVIDIA显卡和正确配置）。在启动Ollama时，可以指定 OLLAMA_NUM_PARALLEL 等环境变量来调整资源使用。
- 模型选择 ： codellama:7b 是7B参数模型。如果你的硬件较弱（比如只有8G内存），可以尝试更小的模型如 phi 系列，或者使用量化版本的模型（如 codellama:7b-instruct-q4_K_M ），量化模型在几乎不损失精度的情况下，能大幅降低内存占用和提升推理速度。使用 ollama pull codellama:7b-instruct-q4_K_M 来拉取。
- 参数调优 ：降低 num_predict （最大生成令牌数）可以加快响应。提高 temperature （如到0.3）可能让模型回答更“开放”，但也会增加不确定性，需要根据任务权衡。
- 上下文质量 ：确保传递给模型的上下文是高度相关的。如果向量检索本身就不准，模型巧妇难为无米之炊。回到上一步优化检索效果。

5.5 系统扩展与维护

问题：代码库更新后，如何增量更新索引？
解决：实现一个简单的增量更新逻辑。记录每个已索引文件的哈希值（如MD5）。定期扫描时，计算当前文件哈希，与记录对比。对于修改过的文件，先从向量数据库中删除该文件对应的所有旧代码块，然后重新解析和索引该文件。对于新增文件，直接索引。删除的文件，则从数据库中移除。这需要一个额外的元数据表来管理文件哈希。

这个项目从构思到实现，是一个典型的将前沿AI技术（本地大模型、RAG）与经典软件工程问题（代码搜索）相结合的实践。它不是一个完美的产品，但作为一个可定制、可扩展的本地化解决方案，其潜力和学习价值非常大。你可以根据自己的需求，轻松地替换其中的任何一个组件——换更强的模型、换更快的向量库、支持更多的编程语言。最重要的是，你完全掌控自己的代码和数据。