使用Langchain-chatchat搭建RAG应用，并使用postman进行测试验证，大模型入门到精通，收藏这篇就足够了！

LangChain-Chatchat (原 Langchain-ChatGLM)，一种利用 langchain 思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

AI-智能

1021人浏览 · 2025-09-23 14:59:18

AI-智能 · 2025-09-23 14:59:18 发布

Github地址：https://github.com/chatchat-space/Langchain-Chatchat

一、概述

本项目的最新版本中可使用 Xinference、Ollama 等框架接入 GLM-4-Chat、 Qwen2-Instruct、 Llama3 等模型，依托于 langchain 框架支持通过基于 FastAPI 提供的 API 调用服务，或使用基于 Streamlit 的 WebUI 进行操作。

本项目支持市面上主流的开源 LLM、 Embedding 模型与向量数据库，可实现全部使用开源模型离线私有部署。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入。

本项目实现原理如下图所示，过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt中 -> 提交给 LLM生成回答。

|原理介绍：https://www.bilibili.com/video/BV13M4y1e7cN/?share_source=copy_web&vd_source=e6c5aafe684f30fbe41925d61ca6d514

0.3.x 版本功能一览

功能	0.2.x	0.3.x
模型接入	本地：fastchat 在线：XXXModelWorker	本地：model_provider,支持大部分主流模型加载框架在线：oneapi 所有模型接入均兼容openai sdk
Agent	❌不稳定	✅针对ChatGLM3和Qwen进行优化,Agent能力显著提升
LLM对话	✅	✅
知识库对话	✅	✅
搜索引擎对话	✅	✅
文件对话	✅仅向量检索	✅统一为File RAG功能,支持BM25+KNN等多种检索方式
数据库对话	❌	✅
多模态图片对话	❌	✅ 推荐使用 qwen-vl-chat
ARXIV文献对话	❌	✅
Wolfram对话	❌	✅
文生图	❌	✅
本地知识库管理	✅	✅
WEBUI	✅	✅更好的多会话支持,自定义系统提示词…

0.3.x 版本的核心功能由 Agent 实现,但用户也可以手动实现工具调用:

操作方式	实现的功能	适用场景
选中"启用Agent",选择多个工具	由LLM自动进行工具调用	使用ChatGLM3/Qwen或在线API等具备Agent能力的模型
选中"启用Agent",选择单个工具	LLM仅解析工具参数	使用的模型Agent能力一般,不能很好的选择工具想手动选择功能
不选中"启用Agent",选择单个工具	不使用Agent功能的情况下,手动填入参数进行工具调用	使用的模型不具备Agent能力
不选中任何工具，上传一个图片	图片对话	使用 qwen-vl-chat 等多模态模型

已支持的模型部署框架与模型

本项目中已经支持市面上主流的如 GLM-4-Chat 与 Qwen2-Instruct 等新近开源大语言模型和 Embedding 模型，这些模型需要用户自行启动模型部署框架后，通过修改配置信息接入项目，本项目已支持的本地模型部署框架如下：

模型部署框架	Xinference	LocalAI	Ollama	FastChat
OpenAI API 接口对齐	✅	✅	✅	✅
加速推理引擎	GPTQ, GGML, vLLM, TensorRT, mlx	GPTQ, GGML, vLLM, TensorRT	GGUF, GGML	vLLM
接入模型类型	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Text-to-Image, Vision	LLM, Vision
Function Call	✅	✅	✅	/
更多平台支持(CPU, Metal)	✅	✅	✅	✅
异构	✅	✅	/	/
集群	✅	✅	/	/
操作文档链接	Xinference 文档	LocalAI 文档	Ollama 文档	FastChat 文档
可用模型	Xinference 已支持模型	LocalAI 已支持模型	Ollama 已支持模型	FastChat 已支持模型

除上述本地模型加载框架外，项目中也为可接入在线 API 的 One API 框架接入提供了支持，支持包括 OpenAI ChatGPT、Azure OpenAI API、Anthropic Claude、智谱清言、百川等常用在线 API 的接入使用。

二、安装使用

2.1 软硬件要求

💡 软件方面，本项目已支持在 Python 3.8-3.11 环境中进行使用，并已在 Windows、macOS、Linux 操作系统中进行测试。

💻 硬件方面，因 0.3.0 版本已修改为支持不同模型部署框架接入，因此可在 CPU、GPU、NPU、MPS 等不同硬件条件下使用。

2.2 安装 Langchain-Chatchat

从 0.3.0 版本起，Langchain-Chatchat 提供以 Python 库形式的安装方式，具体安装请执行：

pip install langchain-chatchat -U

执行上述命令之前，最好先安装一个python虚拟机，具体安装方式如下：

conda create -n chatchat python=3.11

因模型部署框架 Xinference 接入 Langchain-Chatchat 时需要额外安装对应的 Python 依赖库，因此如需搭配 Xinference 框架使用时，建议使用如下安装方式：

pip install "langchain-chatchat[xinference]" -U

安装好python环境后，正式进入Langchain-chatchat环境配置。

2.3 初始化项目配置与数据目录

1. 设置 Chatchat 存储配置文件和数据文件的根目录（可选）

# on linux or macos

|若不设置该环境变量，则自动使用当前目录。

2. 执行初始化

chatchat init

该命令会执行以下操作：

创建所有需要的数据目录
复制 samples 知识库内容
生成默认 yaml 配置文件

3. 修改配置文件

a）配置模型（model_settings.yaml）

需要根据步骤 2. 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置，具体参考 model_settings.yaml 中的注释。主要修改以下内容：

# 默认选用的 LLM 名称

b）配置知识库路径（basic_settings.yaml）（可选）

默认知识库位于 CHATCHAT_ROOT/data/knowledge_base，如果你想把知识库放在不同的位置，或者想连接现有的知识库，可以在这里修改对应目录即可。

# 知识库默认存储路径

c）配置知识库（kb_settings.yaml）（可选）

默认使用 FAISS 知识库，如果想连接其它类型的知识库，可以修改 DEFAULT_VS_TYPE 和 kbs_config。

2.4 初始化知识库

进行知识库初始化前，请确保已经启动模型推理框架及对应 embedding 模型，且已按照上述步骤3完成模型接入配置。

chatchat kb -r

|会预加载Langchain-chatchat自带的文档，包括txt，excel，csv等格式文件

2.5 启动项目

chatchat start -a

出现以下界面即为启动成功:

可以在Langchain-chatchatWEBUI界面中选择《多功能对话》、《RAG对话》、《知识库管理》等功能，其中，《多功能对话》中也可以选择“本地知识库”实现RAG对话功能。

其他功能，自行开发。

三、项目部署调用

3.1 API调用方式

可以参考官方链接：

https://github.com/chatchat-space/Langchain-Chatchat/blob/master/docs/contributing/api.md

把如下文件内容写入infer_test.py即可进行测试验证。

base_url = "http://127.0.0.1:7861/knowledge_base/local_kb/samples"

3.2 flask调用方式

把如下文件内容写入infer_flask.py即可进行测试验证。

from flask import Flask

运行上述文件

pythoninfer_flask.py

可以在浏览器输入对应的url进行GET请求访问（下面内容仅用作测试）

由于浏览器无法验证POST请求，因此需要下载postman软件进行验证，下载地址：https://www.postman.com/downloads/

下载好postman软件，然后新建Collections，输入测试的url，并选择请求类型（比如GET、POST），如果有参数，可以输入参数名称和参数内容，最后执行“send”即可。案例如下图所示：

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

北京朝阳AI社区

更多推荐

上下文工程驱动智能体向规则引擎与神经网络共生

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运