初探：用 FastAPI 搭建你的第一个 AI Agent 接口

不对劲啊1

242人浏览 · 2026-06-23 16:31:03

不对劲啊1 · 2026-06-23 16:31:03 发布

本文能帮你解决的

把“本地大模型”变成“标准 HTTP API”，顺便搞清楚 Agent 最核心的骨架—— Agent = LLM + 工具 + 编排逻辑 ，而不是一上来就啃那些重框架。

你会得到一个带请求/响应校验、环境变量管理、自动生成接口文档的最小可行 Agent 后端。

🧭 内容速览

· 一个让本地 LLM“开口接客”的痛点场景

· 用餐厅点餐比喻，拆解 Agent 到底是个啥

· FastAPI + Ollama + Pydantic 的最小实战代码

· 请求生命周期：从你的问题到 Agent 那句回答

· 几个一偷懒就翻车的坑，帮你提前绕开

🔑 第一部分：那把“钥匙”到底在哪儿？

看个案例：小媛说他在本地把 Llama3 跑起来了，想给自己的客服系统加个自动回复接口。

需求不复杂：前端扔一段用户问题过来，后端问 Ollama，然后把答案送回去。她觉得这应该半小时搞定。

结果呢？她先是卡在“怎么把每次的提问包装成 API”，然后又纠结“返回的结果该用啥格式”，最后看着一堆手动拼的 JSON schema 叹了口气。

这就是典型的手里有发动机，却没给车架和轮胎。FastAPI 正好就是那套车架，帮我们把发动机（LLM）稳稳地装上去，还顺带送个仪表盘（Swagger）。

🍔 第二部分：Agent 这套“套餐”到底怎么理解

先别急着敲代码，咱们聊聊 Agent 的本质。我特别喜欢用 快餐店点餐 来打比方：

👩‍🍳 LLM —— 就是后厨那个万能大厨，你提啥要求他都能给整出个菜。

🧰 工具 —— 是大厨手边的锅铲、烤箱、菜刀。没有工具，他只能干聊；有了工具，他才能查天气、调数据库、执行函数。

📋 编排逻辑 —— 是前台那张点餐流程单：先确认需求，再选择合适的工具，最后让大厨出餐，错了还要打回重做。

所以一个最简化的 Agent 接口，不是直接把用户的话丢给 Ollama 完事，而是要在代码里体现这三层。今天我们先把基础路走通，让“大厨”先能出餐，后面再加“工具”就容易了。

⚡ 第三部分：动手！从零搭一个 /chat 端点

先晒一下我们的目标——一个跑在本地、用 Swagger 就能聊天的接口。你发一段话，它回一段话，背后调的是 Ollama。

咱们的项目目录就简简单单几个文件：

├── main.py # 主服务入口
├── models.py # 请求/响应模型
├── config.py # 环境变量配置
└── pyproject.toml

好，咱们先来搞定环境。 我默认你已经装好了 Ollama 并且拉取了模型，比如 llama3。然后一行命令把依赖装齐：

uv add fastapi[standard] httpx

对，你没看错，连 httpx 都得装，一会儿我们要用它去异步调 Ollama 的 API，这时候就别用 requests 同步请求了，一上量接口直接卡成 PPT。

接下来重点来了，定义请求和响应模型。 打开 models.py，用 Pydantic 来管住进出。
我喜欢把这事儿交给 Pydantic，比手写字典强一万倍——自动校验，还能直接喂给 Swagger。

from pydantic import BaseModel

class ChatRequest(BaseModel):
    message: str

class ChatResponse(BaseModel):
    reply: str

这里再说个容易翻车的点：模型里字段如果写成 msg 这种简写，回头对接前端的人会恨你一辈子。老老实实把可读性拉满。

然后是 config.py，咱们用 pydantic-settings 管理环境变量。这样不用把地址硬编码在代码里，随时可以通过 .env 或环境变量覆盖。

from pydantic_settings import BaseSettings

class Settings(BaseSettings):
    ollama_base_url: str = "http://localhost:11434"
    model_name: str = "llama3"

    class Config:
        env_file = ".env"

settings = Settings()

官方文档虽然默认就支持 .env，但根据以往的经验，一定要在根目录放一个 .env 文件，并且记得加进 .gitignore。不然某天队友的 API Key 就被你公之于众了，那场面可太尴尬。

主角来了：main.py。我们先搭个骨架，再用依赖注入把 settings 传进去，给 /chat 端点用。

from fastapi import FastAPI, Depends
from models import ChatRequest, ChatResponse
from config import Settings, settings
import httpx

app = FastAPI(title="AI Agent 接口", version="0.1.0")

def get_settings():
    return settings

@app.post("/chat", response_model=ChatResponse)
async def chat(
    req: ChatRequest,
    config: Settings = Depends(get_settings)
):
    async with httpx.AsyncClient() as client:
        resp = await client.post(
            f"{config.ollama_base_url}/api/generate",
            json={
                "model": config.model_name,
                "prompt": req.message,
                "stream": False
            },
            timeout=30.0
        )
        resp.raise_for_status()
        data = resp.json()
        return ChatResponse(reply=data["response"])

你可能会问：“就这？Agent 的‘工具’和‘编排’呢？”
别急，今天咱们先把大厨请出来。后面几篇我会慢慢给这个骨架添上“菜单”——工具调用逻辑，让它可以查天气、搜文档。

现在先跑起来，体验一下从零到一的快感。

最后啰嗦一句，启动命令就一行： fastapi run main.py 。
然后打开 http://localhost:8000/docs ，你会看到一个自带交互界面的 Swagger。直接在里面 Try it out 测试，看到回复的那一瞬间，你心里一定会喊一声“舒坦”。

🔁 第四部分：一个请求的完整生命周期

为了让你心里更有谱，我把整个过程拆成五步：

❶ 前端（或 Swagger）把用户的一句话按 ChatRequest 格式发到 /chat

❷ FastAPI 自动校验字段，不对就立刻返回 422 错误，省得垃圾数据钻进大模型

❸ 依赖注入把 Settings 对象默默准备好，代码里直接用

❹ 用 httpx 异步调用 Ollama 的 /api/generate，把大厨喊醒

❺ Ollama 返回的 response 字段塞进 ChatResponse，Swagger 自动渲染成漂亮的 JSON 文档

你瞧，整个链路清晰得就像一条笔直的大路，每个弯拐在哪里一目了然。以后想加缓存、加日志、加工具，只要顺着这条路插进去就行。

⚠️ 注意事项与进阶思考

· 千万别在公网暴露 Ollama 的 11434 端口，这家伙默认没鉴权！

· 生产环境一定要加请求频率限制，大模型慢，分分钟把你的 FastAPI 线程池打满。

· stream: False 用着爽，但做打字机效果时记得换成流式响应，那又是另一个好玩的话题。

· 接下来我会在这个例子上逐步加上工具调用（比如用搜索引擎的 API），让 Agent 真的“动手干活”。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

别再只会说「大模型」了！7大核心概念一次讲透：API/LLM/MCP/Agent/Prompt调优/CLI/Skill

龙虾开发者社区

AI 同事，正在从聊天窗口走进企业工作流

它像是 Claude 进入 Slack 的一次升级：在团队频道里 @Claude，它就能读懂上下文、拆解任务、调用工具，然后把结果发回讨论串。但如果只把它理解成“Slack 里的 Claude”，可能就低估了这次更新。在我看来，Claude Tag 真正有意思的地方，不是它又多了一个入口，而是它代表了 AI Agent 产品形态的一次明显变化：AI 不再只是一个你单独打开的聊天窗口，而开始变成一个