基于FastAPI与LangGraph的生产级AI智能体脚手架实战指南

在构建现代AI应用时，一个清晰、可扩展的架构是项目成功的基础。其核心原理在于通过模块化设计，将复杂的智能体工作流、数据持久化、API服务与监控观测等关注点分离，从而提升开发效率和系统可维护性。这种架构的技术价值在于，它允许开发者从繁琐的基础设施搭建中解放出来，专注于核心业务逻辑的创新与迭代。典型的应用场景包括开发具备多轮对话、工具调用和长期记忆能力的智能客服、个性化推荐助手或自动化工作流引擎。本文

Randy Rhoads

162人浏览 · 2026-04-25 16:25:30

Randy Rhoads · 2026-04-25 16:25:30 发布

1. 项目概述：一个为AI智能体应用而生的生产级脚手架

如果你正在寻找一个能直接上手、开箱即用，并且已经集成了现代AI应用开发所有核心组件的FastAPI项目模板，那么 fastapi-langgraph-agent-production-ready-template 绝对值得你花时间深入研究。这个项目不是一个简单的“Hello World”示例，而是一个经过精心设计的、面向生产环境的完整解决方案。它直接瞄准了当前AI应用开发中最核心的痛点：如何将一个基于大语言模型的智能体（Agent）想法，快速、稳健地部署为一个可扩展、可观测、易维护的Web服务。

简单来说，这个模板为你搭建了一个“五脏俱全”的舞台。你不再需要从零开始纠结于如何配置数据库、如何设计认证、如何集成监控、如何管理Agent的状态和记忆。它已经将FastAPI的高性能异步API、LangGraph的智能体工作流编排、PostgreSQL的向量存储、Langfuse的LLM可观测性、结构化的日志、速率限制、Docker容器化等关键要素，以最佳实践的方式组合在了一起。你的核心任务，从搭建基础设施，转变为专注于设计智能体的业务逻辑和工具（Tools），这极大地提升了开发效率和项目的可维护性。

2. 核心架构与设计哲学拆解

2.1 为什么是“生产就绪”？

很多AI项目模板只解决了“跑起来”的问题，但这个模板的野心在于“跑得好、跑得稳”。它的“生产就绪”特性体现在以下几个关键设计决策上：

1. 清晰的关注点分离与模块化 项目结构严格遵循了FastAPI的最佳实践，将配置、模型、路由、服务、核心逻辑清晰地分离开。例如，所有API端点集中在 app/api/v1/ 下，数据库模型在 app/models/ ，业务服务在 app/services/ ，而LangGraph智能体的核心定义则在 app/core/langgraph/ 。这种结构使得团队协作和代码维护变得非常直观，新人也能快速定位到相关代码。

2. 环境驱动的配置管理 它没有使用一个简单的 .env 文件了事，而是支持 .env.development 、 .env.staging 、 .env.production 等多环境配置。这意味着你可以在本地开发时使用调试模式和测试API密钥，在预发布和生产环境使用完全独立的数据库、监控密钥和优化参数。配置通过 app/core/config.py 进行集中管理和验证，确保了类型安全，避免了运行时因配置错误导致的崩溃。

3. 内置的可观测性与监控 这是区分玩具项目和严肃应用的关键。模板集成了Langfuse，这意味着从智能体接收到用户请求开始，到调用LLM、执行工具、更新状态，整个链条的每一次交互都会被自动追踪（Trace）。你可以在Langfuse的界面上清晰地看到每次调用的耗时、Token消耗、花费成本以及完整的输入输出。此外，通过Prometheus和Grafana，你还能监控API的QPS、延迟、错误率等系统级指标。这种开箱即用的可观测性，为线上调试、性能优化和成本分析提供了坚实的数据基础。

4. 韧性设计 LLM API服务天生具有不稳定性，可能遇到限流、超时或临时故障。模板中的LLM服务（ app/services/llm.py ）使用 tenacity 库实现了自动重试逻辑，采用指数退避策略（如等待1秒、2秒、4秒后重试）。这种设计能有效应对短暂的网络波动或API限流，提升了服务的整体可用性。

2.2 LangGraph与智能体工作流的核心角色

LangGraph是LangChain框架中用于构建有状态、多步骤智能体的库。在这个模板中，它扮演着“智能体大脑”的指挥中心角色。

传统的LangChain链（Chain）是无状态的，每次调用相互独立。而LangGraph引入了“状态”（State）的概念，并基于此状态定义了一个由节点（Nodes）和边（Edges）组成的工作流图（Graph）。智能体的执行过程，就是在这个图上，根据当前状态和预定义的条件（Edges），从一个节点“走”到下一个节点的过程。

在这个模板的上下文中：

节点可能包括：“理解用户意图”、“调用搜索工具”、“调用计算工具”、“生成最终回复”、“更新长期记忆”。
状态是一个Pydantic模型，包含了当前对话的完整上下文，如用户消息、历史记录、已收集的信息、工具执行结果等。
边决定了流程的走向，例如：如果工具执行成功，则进入“生成回复”节点；如果需要更多信息，则返回“询问用户”节点。

这种图式的工作流使得复杂的、多轮交互的智能体逻辑变得可视化且易于调试。模板已经搭建好了LangGraph与FastAPI集成的桥梁（主要在 app/core/langgraph/graph.py ），你只需要专注于定义你的业务节点和状态流转逻辑。

2.3 长期记忆系统的实现原理

智能体没有记忆，就像金鱼一样，每次对话都是新的开始。模板集成了 mem0ai 和 pgvector ，构建了一个基于语义的长期记忆系统。

它的工作流程可以这样理解：

记忆提取 ：在对话过程中，系统会通过LLM自动分析当前交互，提取出可能对未来对话有价值的“事实”或“信息点”（例如：“用户喜欢喝美式咖啡”、“用户的公司位于北京”）。
向量化存储 ：将这些信息点通过文本嵌入模型（如 text-embedding-3-small ）转换成高维向量，然后连同原始文本、关联的用户ID、时间戳等信息，存入PostgreSQL的 pgvector 扩展支持的表中。
记忆检索 ：当用户开启新一轮对话时，系统会将用户当前的问题或对话上下文也转换成向量，然后在向量数据库中进行相似度搜索（通常使用余弦相似度），找出与当前语境最相关的几条历史记忆。
记忆注入 ：检索到的相关记忆会被作为上下文，与当前用户问题一起喂给LLM，从而使智能体能够“记得”之前聊过的事情，实现连贯的个性化对话。

这个设计巧妙之处在于，它不仅是简单的关键词匹配，而是语义搜索。即使用户换了一种说法提问，只要意思相近，也能召回相关记忆。 mem0ai 库进一步封装了记忆的存储、检索和管理的复杂性，让开发者可以更专注于记忆策略的设计。

3. 从零开始：环境搭建与核心配置详解

3.1 基础设施准备：数据库与Docker

项目强依赖PostgreSQL，并且需要启用 pgvector 扩展。如果你选择本地开发，最快捷的方式就是使用Docker。

# 使用Docker启动一个带有pgvector的PostgreSQL实例
docker run -d \
  --name postgres-vector \
  -e POSTGRES_PASSWORD=yourpassword \
  -e POSTGRES_DB=cool_db \
  -p 5432:5432 \
  pgvector/pgvector:pg16

这条命令会拉取并运行一个预装了 pgvector 扩展的PostgreSQL 16镜像。之后，你需要在项目的 .env.development 文件中配置对应的连接信息。

注意：生产环境强烈建议使用云托管的数据库服务（如Supabase、AWS RDS、Google Cloud SQL），它们通常也支持 pgvector ，并提供高可用、自动备份等企业级功能。切勿在生成环境使用简单的Docker容器。

模板的 docker-compose.yml 文件已经定义了一个完整的服务栈，包括应用本身、PostgreSQL、Prometheus和Grafana。通过 make docker-build-env ENV=development 和 make docker-run-env ENV=development 命令，可以一键构建和启动整个开发环境，这对于保持团队环境一致性非常有帮助。

3.2 关键环境变量配置实战

克隆项目并创建环境配置文件后，你需要仔细配置以下几个核心区块：

1. LLM与API密钥 这是项目的引擎。你需要在OpenAI平台获取API密钥。

OPENAI_API_KEY=sk-你的真实密钥
DEFAULT_LLM_MODEL=gpt-4o-mini  # 开发阶段建议先用小模型控制成本
DEFAULT_LLM_TEMPERATURE=0.7
MAX_TOKENS=4096

实操心得 ：在开发调试阶段，将 DEFAULT_LLM_MODEL 设置为 gpt-4o-mini 或 gpt-3.5-turbo 可以显著降低试错成本。等智能体逻辑稳定后，再切换为 gpt-4o 或 gpt-5 以获得更好的效果。同时，务必在代码中设置预算告警，避免意外消耗。

2. 长期记忆配置 这部分配置决定了记忆系统的“智商”和成本。

LONG_TERM_MEMORY_COLLECTION_NAME=agent_memories
LONG_TERM_MEMORY_MODEL=gpt-4o-mini  # 用于分析和提取记忆的模型
LONG_TERM_MEMORY_EMBEDDER_MODEL=text-embedding-3-small  # 用于生成向量的模型

避坑指南 ： LONG_TERM_MEMORY_MODEL 和 LONG_TERM_MEMORY_EMBEDDER_MODEL 可以是不同的模型。通常，嵌入模型（Embedder）选择更小、更便宜的专用模型（如 text-embedding-3-small ）就足够了，因为它只负责将文本转换为向量。而分析提取记忆可能需要更强的理解能力，可以根据需求选择模型。

3. 可观测性配置（Langfuse） 去Langfuse官网注册并创建一个项目，获取密钥。

LANGFUSE_PUBLIC_KEY=你的公钥
LANGFUSE_SECRET_KEY=你的私钥
LANGFUSE_HOST=https://cloud.langfuse.com

配置成功后，启动应用，发送几条聊天请求，然后打开Langfuse控制台，你就能看到所有请求的追踪链了。这是调试Agent决策过程不可或缺的工具。

4. 安全与限流配置

SECRET_KEY=一个强随机字符串  # 用于JWT令牌签名，务必保密！
ACCESS_TOKEN_EXPIRE_MINUTES=30
RATE_LIMIT_ENABLED=true

SECRET_KEY 可以使用 openssl rand -hex 32 命令生成。速率限制默认是开启的，防止恶意用户刷爆你的API和LLM额度。

3.3 项目启动与首次验证

完成配置后，在项目根目录执行：

uv sync  # 使用uv安装依赖，比pip快很多
make dev # 启动开发服务器

如果一切顺利，终端会输出服务启动信息。此时访问 http://localhost:8000/docs ，你应该能看到自动生成的Swagger UI接口文档。

首次健康检查 ：

在Swagger UI中找到 /health 端点，点击“Try it out”，然后执行。你应该收到一个包含 {"status": "healthy", "database": "connected"} 的响应。这证明FastAPI应用和数据库连接正常。
尝试调用 /api/v1/auth/register 注册一个测试用户，然后用该用户登录 /api/v1/auth/login 获取JWT令牌。将获取到的令牌在Swagger UI右上角点击“Authorize”按钮填入（格式为 Bearer <你的token> ）。这验证了认证系统工作正常。
使用授权的令牌，调用 /api/v1/chatbot/chat 发送一条简单消息（如“Hello”）。如果配置了正确的OpenAI API密钥，你应该能收到LLM的回复，同时在Langfuse控制台看到这次调用的完整追踪。

完成这三步，就标志着你的基础环境已经全部就绪，可以开始构建自己的智能体逻辑了。

4. 核心功能模块深度实操

4.1 构建你的第一个LangGraph智能体

模板在 app/core/langgraph/graph.py 中已经提供了一个基础的图结构。让我们来剖析并扩展它，创建一个简单的“餐厅推荐助手”。

1. 定义状态（State） 状态是智能体的“记忆画布”。打开 app/schemas/graph.py ，你可以看到基础的 GraphState 。我们需要为其添加餐厅推荐相关的字段。

from pydantic import BaseModel, Field
from typing import List, Optional, Annotated
import operator

class GraphState(BaseModel):
    """智能体对话状态"""
    messages: Annotated[List[dict], operator.add]  # 对话消息历史
    user_info: Optional[dict] = None  # 用户信息（如位置、偏好）
    restaurant_criteria: Optional[dict] = None  # 本次搜索条件（如菜系、价格）
    retrieved_restaurants: List[dict] = Field(default_factory=list)  # 检索到的餐厅列表
    final_recommendation: Optional[str] = None  # 最终推荐结果

Annotated[List[dict], operator.add] 是LangGraph的一个特殊语法，表示 messages 字段在节点间传递时，新值会与旧值相加（列表合并），而不是替换。

2. 创建工具（Tools） 智能体通过工具与外界交互。在 app/core/langgraph/tools.py 中定义工具函数，并用 @tool 装饰器标记。

from langchain_core.tools import tool
from app.services.database import get_db
from sqlalchemy import text
import json

@tool
async def search_restaurants(cuisine: str, max_price: int, location: str) -> str:
    """根据菜系、最高价格和位置搜索餐厅。"""
    # 这里模拟一个数据库查询，实际项目中应接入真实数据源
    async with get_db() as db:
        # 示例：查询pgvector中存储的餐厅向量（假设已存有餐厅描述向量）
        # 实际实现会更复杂，可能结合关键词和向量搜索
        query = text("""
            SELECT name, description, price_range, rating 
            FROM restaurants 
            WHERE cuisine ILIKE :cuisine 
            AND price_range <= :max_price 
            ORDER BY embedding <=> :query_vector 
            LIMIT 5
        """)
        # ... 执行查询并获取结果
        mock_results = [
            {"name": "川味坊", "cuisine": "川菜", "price": "￥￥", "rating": 4.5},
            {"name": "小湖南", "cuisine": "湘菜", "price": "￥", "rating": 4.2},
        ]
    return json.dumps(mock_results, ensure_ascii=False)

@tool
async def get_user_preference(user_id: int) -> str:
    """从长期记忆中获取用户的饮食偏好。"""
    # 调用mem0ai服务，检索该用户的历史偏好记忆
    memory_service = get_memory_service() # 假设有一个获取记忆服务的函数
    memories = await memory_service.search(user_id=user_id, query="喜欢的食物")
    return json.dumps([m.content for m in memories], ensure_ascii=False)

3. 设计图节点（Nodes） 节点是图的工作单元。在 graph.py 中，我们定义几个关键节点：

from langgraph.graph import StateGraph, END
from app.schemas.graph import GraphState
from app.core.langgraph.tools import search_restaurants, get_user_preference

def retrieve_user_info(state: GraphState):
    """节点：检索用户信息和历史偏好"""
    # 假设能从state.messages中提取用户ID
    user_id = extract_user_id(state)
    preference_json = await get_user_preference.invoke({"user_id": user_id})
    state.user_info = json.loads(preference_json)
    return state

def collect_criteria(state: GraphState):
    """节点：从最新用户消息中提取搜索条件"""
    latest_message = state.messages[-1]["content"]
    # 这里可以调用一个LLM，使用函数调用或结构化输出，来解析用户意图
    # 例如，使用PydanticOutputParser解析出菜系、价格、位置等字段
    # 为简化，我们假设已经解析好
    state.restaurant_criteria = {"cuisine": "川菜", "max_price": 150, "location": "北京"}
    return state

def search_and_filter(state: GraphState):
    """节点：调用工具搜索餐厅，并进行初步过滤"""
    criteria = state.restaurant_criteria
    results_json = await search_restaurants.invoke({
        "cuisine": criteria["cuisine"],
        "max_price": criteria["max_price"],
        "location": criteria["location"]
    })
    state.retrieved_restaurants = json.loads(results_json)
    # 可以在这里添加过滤逻辑，比如过滤掉评分过低的
    state.retrieved_restaurants = [r for r in state.retrieved_restaurants if r["rating"] > 4.0]
    return state

def generate_recommendation(state: GraphState):
    """节点：生成最终推荐回复"""
    restaurants = state.retrieved_restaurants
    if not restaurants:
        state.final_recommendation = "抱歉，没有找到符合您条件的餐厅。"
    else:
        # 将餐厅信息格式化，并调用LLM生成一段友好的推荐语
        recommendation = await llm_service.generate_recommendation(restaurants, state.user_info)
        state.final_recommendation = recommendation
    # 将推荐语添加到消息历史，返回给用户
    state.messages.append({"role": "assistant", "content": state.final_recommendation})
    return state

4. 组装图（Graph）并定义流转逻辑

def create_restaurant_agent_graph():
    workflow = StateGraph(GraphState)
    
    # 添加节点
    workflow.add_node("retrieve_user_info", retrieve_user_info)
    workflow.add_node("collect_criteria", collect_criteria)
    workflow.add_node("search_and_filter", search_and_filter)
    workflow.add_node("generate_recommendation", generate_recommendation)
    
    # 设置入口点
    workflow.set_entry_point("retrieve_user_info")
    
    # 定义边（条件流转）
    workflow.add_edge("retrieve_user_info", "collect_criteria")
    workflow.add_edge("collect_criteria", "search_and_filter")
    workflow.add_edge("search_and_filter", "generate_recommendation")
    workflow.add_edge("generate_recommendation", END)
    
    # 编译图
    return workflow.compile()

现在，你就在模板的基础上，创建了一个具有明确工作流（检索用户信息 -> 收集条件 -> 搜索过滤 -> 生成推荐）的智能体。你可以将这个新的图实例，替换或集成到 app/core/langgraph/graph.py 的 get_agent_graph 函数中。

4.2 深度集成长期记忆系统

模板已经将 mem0ai 的客户端初始化逻辑封装好了。要让它为你的智能体服务，关键在于两个动作： 存储记忆 和 检索记忆 。

存储记忆 ：通常发生在对话中有价值信息产生时。你可以在智能体的某个节点（例如，在成功推荐餐厅后）添加记忆存储逻辑。

async def store_conversation_memory(state: GraphState):
    """在对话结束后，将关键信息存入长期记忆"""
    memory_service = get_memory_service()
    user_id = extract_user_id(state)
    
    # 提取关键信息：例如用户最终选择的餐厅和评价
    key_info = f"用户对{state.selected_restaurant['name']}表现出兴趣，偏好{state.restaurant_criteria['cuisine']}菜系。"
    
    await memory_service.add(
        user_id=user_id,
        memories=[key_info],
        description="用户餐厅偏好记忆"
    )
    return state

你可以设计更复杂的策略，比如使用一个LLM调用，专门分析一轮对话的摘要和关键实体，再进行存储。

检索记忆 ：在对话开始时，或当需要上下文时进行。这通常在 retrieve_user_info 节点或一个专门的 retrieve_memories 节点中完成。

async def retrieve_relevant_memories(state: GraphState):
    """检索与当前对话相关的长期记忆"""
    memory_service = get_memory_service()
    user_id = extract_user_id(state)
    # 使用当前用户的最新消息作为查询
    latest_query = state.messages[-1]["content"] if state.messages else ""
    
    memories = await memory_service.search(
        user_id=user_id,
        query=latest_query,
        limit=3  # 返回最相关的3条记忆
    )
    
    # 将检索到的记忆格式化，并入到系统提示词或上下文中
    memory_context = "\n".join([f"- {m.content}" for m in memories])
    # 可以将memory_context附加到state的某个字段，供后续节点使用
    state.memory_context = memory_context
    return state

注意事项 ：记忆的检索不是免费的，它涉及向量数据库的查询和可能的LLM调用（用于重写查询或对记忆进行重新排序）。你需要根据业务场景平衡记忆的“广度”和“成本”。对于实时性要求高的场景，可以设置较短的记忆检索窗口或更严格的相似度阈值。

4.3 配置与使用模型评估框架

模板内置的评估框架是一个强大的工具，用于量化你的智能体在不同场景下的表现。它位于 evals/ 目录下。

1. 理解评估流程 评估器（ evals/evaluator.py ）的工作流程是：

从Langfuse拉取指定时间范围内的追踪数据（Traces）。
对每一条追踪，提取输入（用户消息）和输出（助手回复）。
针对每一个在 evals/metrics/prompts/ 目录下定义的评估指标（一个Markdown文件），构造一个评估提示词，调用LLM（通常是GPT-4）来打分或判断。
聚合所有追踪和所有指标的结果，生成一份详细的JSON报告。

2. 创建自定义评估指标 假设你想评估“推荐餐厅的完整性”，可以创建一个 evals/metrics/prompts/restaurant_completeness.md 文件：

你是一个严格的餐厅推荐评估专家。
请根据以下对话和助手回复，评估助手推荐的餐厅信息是否完整。

**评估标准**：
- 必须包含餐厅名称（1分）
- 必须包含至少一项特色菜或推荐理由（1分）
- 必须包含大致价格范围或人均消费（1分）
- 必须包含大致地理位置或区域（1分）
- 信息准确无误，与对话上下文相符（1分）

**输出格式**：
请严格按以下JSON格式输出，不要有任何其他内容：
{
  "score": <总分，0-5的整数>,
  "reasoning": "<你的评估理由，详细说明每一项得分或扣分的原因>"
}

**对话历史**：
{{history}}

**用户最新问题**：
{{input}}

**助手回复**：
{{output}}

评估器会自动将 {{history}} 、 {{input}} 、 {{output}} 替换为真实数据，并将这个提示词发送给LLM进行评分。

3. 运行评估并分析结果

# 进入交互模式，它会问你评估的时间范围、使用的指标等
make eval ENV=development

# 或者使用快速模式，使用默认配置
make eval-quick ENV=development

运行后，报告会保存在 evals/reports/ 目录下。打开JSON报告，你可以看到：

summary : 整体成功率、平均分。
metrics : 每个指标（如 restaurant_completeness ）的详细统计，包括平均分、通过率。
traces : 每一条追踪的详细评分和LLM的评估理由。

这个报告能帮你客观地发现智能体的薄弱环节。例如，如果“信息完整性”得分低，你可能需要优化推荐节点的提示词，强制要求输出特定字段。

5. 部署上线与生产环境调优指南

5.1 Docker化部署与编排

模板提供了完整的Docker支持。生产环境部署的核心是 Dockerfile 和 docker-compose.yml 。

1. 构建生产环境镜像 首先，确保你的 .env.production 文件已正确配置（使用生产环境的数据库、密钥等）。

# 构建生产环境镜像
make docker-build-env ENV=production

# 这个命令背后执行的是：
# docker build -f Dockerfile --target production -t your-image-name:prod .

Dockerfile 使用了多阶段构建。 --target production 阶段会安装仅限生产环境的依赖，并进行代码优化（如清理缓存）。

2. 使用Docker Compose编排 查看 docker-compose.yml ，它定义了四个服务： app （你的FastAPI应用）、 db （PostgreSQL）、 prometheus （监控）、 grafana （可视化）。

version: '3.8'
services:
  app:
    build:
      context: .
      target: production
    ports:
      - "8000:8000"
    environment:
      - APP_ENV=production
    # 挂载生产环境配置文件，避免将密钥写在镜像中
    env_file:
      - .env.production
    depends_on:
      - db
    # 健康检查，确保服务真正就绪
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 40s

生产部署时，你通常不会直接使用这个 docker-compose.yml 在服务器上运行，而是使用它来定义服务，然后通过 docker-compose config 生成配置，再交由Kubernetes（使用Kompose转换）或Docker Swarm等真正的生产级编排工具去运行。

3. 关键生产配置

资源限制 ：在 docker-compose.yml 中为每个服务添加 deploy.resources.limits ，限制CPU和内存使用，防止单个容器耗尽主机资源。
日志驱动 ：配置Docker日志驱动为 json-file 或 syslog ，并设置日志轮转策略（ max-size , max-file ），避免日志占满磁盘。
重启策略 ：为 app 服务设置 restart: unless-stopped 或 restart: always ，确保应用崩溃后能自动重启。

5.2 性能监控与告警配置

模板集成了Prometheus和Grafana，但生产环境需要更细致的配置。

1. Prometheus数据持久化 默认的Docker Compose配置中，Prometheus数据存储在容器内，重启会丢失。生产环境必须挂载卷：

prometheus:
  image: prom/prometheus:latest
  volumes:
    - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
    - prometheus_data:/prometheus  # 使用命名卷持久化数据
volumes:
  prometheus_data:

2. 配置关键告警规则 在 prometheus/prometheus.yml 的同级目录创建 alerts.yml ，定义告警规则：

groups:
  - name: api_alerts
    rules:
      - alert: HighErrorRate
        expr: rate(fastapi_requests_total{status=~\"5..\"}[5m]) / rate(fastapi_requests_total[5m]) > 0.05
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "高错误率 (实例 {{ $labels.instance }})"
          description: "过去5分钟，错误率超过5%，当前值 {{ $value }}"
      
      - alert: HighLLMLatency
        expr: histogram_quantile(0.95, rate(fastapi_llm_request_duration_seconds_bucket[5m])) > 30
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "LLM请求延迟过高"
          description: "95分位LLM请求延迟超过30秒，当前值 {{ $value }}s"

然后在 prometheus.yml 中通过 rule_files 引入这个告警规则文件。你需要配置Alertmanager来接收这些告警并发送到邮箱、Slack等。

3. Grafana仪表板优化 模板预置的仪表板是一个好的开始。生产环境中，你应该根据业务关注点创建自定义面板：

业务面板 ：展示每日活跃用户、对话总数、平均对话轮次。
成本面板 ：集成OpenAI API的消耗估算（需额外导出成本数据），监控Token使用趋势。
Agent性能面板 ：展示不同工具调用频率、成功率，长期记忆的检索命中率等。

5.3 安全加固清单

将模板投入生产前，请务必完成以下安全检查：

密钥管理 ：绝对不要将 .env.production 文件提交到代码仓库。使用Docker Secrets、Kubernetes Secrets、AWS Secrets Manager或HashiCorp Vault等专业工具管理密钥。在Docker Compose中，可以通过 secrets 字段引用。
API安全 ：
- 确保所有面向公网的API端点（除了 /health ）都启用了JWT认证。在 app/api/v1/api.py 中检查路由依赖项。
- 仔细审查速率限制配置（ app/core/limiter.py ），为不同的端点设置合理的限制（如登录接口应更严格）。
- 启用并正确配置CORS（跨域资源共享），仅允许可信的前端域名。
依赖扫描 ：定期运行 uv audit 或 pip-audit 、 safety check 来扫描项目依赖中的已知安全漏洞。可以将此步骤集成到CI/CD流水线中。
容器安全 ：
- 使用非root用户运行容器。在 Dockerfile 的 production 阶段末尾添加： USER 1000 。
- 定期更新基础镜像（如 python:3.13-slim ）以获取安全补丁。
数据库安全 ：
- 生产数据库必须设置强密码，并限制访问IP（仅允许应用服务器IP访问）。
- 定期备份数据库。对于PostgreSQL，可以设置WAL归档或使用云服务的自动备份功能。
- 考虑对存储在数据库中的用户对话内容进行加密（应用层加密），即使数据库泄露，内容也不可读。

6. 常见问题与故障排查实录

在实际使用和部署这个模板的过程中，你几乎一定会遇到下面这些问题。这里记录了我踩过的坑和解决方案。

6.1 启动与连接类问题

问题1：启动应用时，数据库连接失败，报错“Connection refused”或“role does not exist”。

排查步骤 ：
1. 检查 .env 文件 ：确认 POSTGRES_HOST 、 POSTGRES_PORT 、 POSTGRES_USER 、 POSTGRES_PASSWORD 是否正确。 POSTGRES_HOST 在Docker Compose环境下通常是服务名 db ，在本地直接连接时是 localhost 。
2. 检查数据库服务状态 ：运行 docker ps 确认PostgreSQL容器正在运行。运行 docker logs <container_name> 查看数据库日志是否有错误。
3. 手动连接测试 ：使用 psql 或Docker命令尝试手动连接数据库： docker exec -it postgres-vector psql -U postgres -d cool_db 。如果失败，说明数据库本身有问题。
4. 检查网络 ：如果应用和数据库不在同一Docker网络，需要确保网络配置正确。在Docker Compose中，所有服务默认在同一个自定义网络中。
解决方案 ：最常见的原因是 .env 文件中的主机名或密码错误。确保在Docker Compose环境下，应用容器能通过服务名（ db ）访问数据库。如果使用本地安装的PostgreSQL，确保服务已启动且监听在正确端口。

问题2：运行 uv sync 或 pip install 时，安装 pgvector 或 psycopg 等依赖失败。

原因：这些包需要系统级的C库（如 libpq 、 gcc ）。
解决方案 ：确保你的系统已安装编译工具和PostgreSQL客户端库。
- Ubuntu/Debian : sudo apt-get update && sudo apt-get install -y build-essential libpq-dev
- Alpine (Docker) : 在 Dockerfile 的 builder 阶段添加： RUN apk add --no-cache postgresql-dev gcc python3-dev musl-dev
- macOS : brew install postgresql

6.2 LangGraph与智能体逻辑问题

问题3：智能体陷入无限循环，或者状态没有按预期更新。

排查步骤 ：
1. 启用LangSmith ：这是调试LangGraph/LangChain最强大的工具。在 .env 中设置 LANGCHAIN_TRACING_V2=true 和 LANGCHAIN_API_KEY （你的LangSmith API密钥）。重启应用后，所有LangChain调用都会被记录，你可以在LangSmith界面可视化地看到整个图的执行流程、每个节点的输入输出。
2. 检查状态注解 ：确认 GraphState 中每个字段的 Annotated 注解是否正确。 operator.add 用于列表合并， None 或普通赋值用于替换。用错会导致状态混乱。
3. 打印调试 ：在节点函数内部添加详细的日志，打印 state 的关键字段。使用模板内置的 structlog logger： logger.info("Current state", user_info=state.user_info) 。
解决方案 ：90%的图逻辑问题可以通过LangSmith追踪定位。仔细检查边的连接顺序和条件判断函数（如果使用了条件边）。确保每个节点都正确修改并返回了 state 对象。

问题4：工具（Tool）调用失败，LLM无法正确识别或使用工具。

排查步骤 ：
1. 检查工具描述 ： @tool 装饰器内的函数文档字符串（docstring）是LLM理解工具用途的唯一依据。确保描述清晰、准确，参数定义明确。
2. 检查绑定 ：确认工具列表已正确绑定到你的LLM或Agent执行器中。在 graph.py 中，检查类似 tools = [search_restaurants, get_user_preference] 和 agent = create_react_agent(llm, tools) 的代码。
3. 查看LLM请求 ：在Langfuse或LangSmith中，查看LLM收到包含工具定义的 system 提示词是什么，以及它返回的 tool_calls 是否正确解析了参数。
解决方案 ：简化工具描述，使用更具体的关键词。确保传递给LLM的工具列表与你想让智能体使用的工具完全一致。有时，LLM版本（如 gpt-4o 比 gpt-3.5-turbo ）对工具调用的支持也有差异。

6.3 内存与性能问题

问题5：随着对话历史增长，API响应速度明显变慢。

原因：默认情况下，整个对话历史（ messages ）都会作为上下文发送给LLM。Token数量线性增长，导致API调用变慢、成本升高。
解决方案 ：
1. 历史总结 ：在 GraphState 中引入一个 summary 字段。每经过若干轮对话，调用一个LLM节点，将冗长的历史总结成一段简短的摘要，存入 summary 。后续对话只携带最新的几条消息和这个摘要，而不是全部历史。
2. 滑动窗口 ：在状态更新时，只保留最近N条消息。例如： state.messages = state.messages[-10:] 。
3. 向量检索记忆 ：这正是长期记忆系统的用武之地。将重要的历史信息存入向量数据库，而不是放在对话上下文里。每次只检索最相关的几条记忆注入上下文。

问题6： pgvector 向量搜索速度慢，或内存占用高。

排查步骤 ：
1. 创建索引 ：对于向量列，必须创建高效的索引。 pgvector 支持 ivfflat 和 hnsw 索引。对于智能体记忆这种写入不极端频繁、查询要求高的场景， hnsw 通常是更好选择。
```
CREATE INDEX ON memories USING hnsw (embedding vector_cosine_ops);
```
2. 调整索引参数 ： hnsw 索引有 m （每个节点的最大连接数）和 ef_construction （构建时的动态候选集大小）参数。增加它们可以提高召回率，但会降低构建速度和增大索引尺寸。需要根据数据量和性能要求权衡。
3. 检查查询计划 ：使用 EXPLAIN ANALYZE 查看向量查询的执行计划，确认是否使用了索引。
解决方案 ：确保为向量列创建了合适的索引。对于生产环境，建议使用 hnsw 索引。定期监控数据库性能，如果数据量极大（数千万条），需要考虑分片或使用专用的向量数据库（如Weaviate, Qdrant）。

6.4 监控与评估问题

问题7：Langfuse控制台看不到追踪数据。

排查步骤 ：
1. 检查密钥和主机 ：确认 LANGFUSE_PUBLIC_KEY 、 LANGFUSE_SECRET_KEY 和 LANGFUSE_HOST 配置正确。 LANGFUSE_HOST 默认是云服务，如果你自托管，需要修改。
2. 检查网络连通性 ：从应用服务器运行 curl https://cloud.langfuse.com （或你的Langfuse主机）测试网络。
3. 查看应用日志 ：Langfuse SDK在初始化失败或发送数据失败时，会在日志中输出警告或错误信息。检查应用启动日志和请求处理日志。
4. 检查SDK版本 ：确保 langfuse 包版本与模板要求兼容。过旧或过新的版本可能导致集成问题。
解决方案 ：最常见的原因是密钥错误或网络问题。确保你的服务器可以访问Langfuse的API端点。在开发环境，可以暂时将日志级别调为 DEBUG ，查看更详细的Langfuse客户端日志。

问题8：模型评估运行非常慢，或者消耗大量Token。

原因：评估框架会为每一条追踪、每一个评估指标发起一次LLM调用。如果追踪数量多、指标多，评估会非常耗时和昂贵。
解决方案 ：
1. 采样评估 ：不要每次都评估所有数据。在 evals/evaluator.py 中，修改拉取追踪的逻辑，例如只评估最近100条，或按时间随机采样。
2. 批量评估 ：可以考虑将多条追踪的同一个评估指标合并到一个LLM调用中，让LLM批量评分。但这需要更复杂的提示词设计和结果解析。
3. 使用更便宜的模型 ：在评估配置中，将评估用的LLM模型从 gpt-4 改为 gpt-4o-mini ，可以大幅降低成本，虽然评估质量可能略有下降。
4. 缓存评估结果 ：对于未改变的代码和相同的输入输出，评估结果应该是相同的。可以实现一个简单的缓存机制，将 (trace_id, metric_name, model) 作为键，缓存评估结果，避免重复计算。