【AI大模型学习路线】第三阶段之RAG与LangChain——第十九章（实战基于Advanced RAG的PDF问答）系统部署与测试?

985小水博一枚呀

946人浏览 · 2025-10-16 19:13:37

985小水博一枚呀 · 2025-10-16 19:13:37 发布

【AI大模型学习路线】第三阶段之RAG与LangChain——第十九章（实战基于Advanced RAG的PDF问答）系统部署与测试?

文章目录

【AI大模型学习路线】第三阶段之RAG与LangChain——第十九章（实战基于Advanced RAG的PDF问答）系统部署与测试?
前言

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “学术会议小灵通”或参考学术信息专栏：https://fighting.blog.csdn.net/article/details/148722365

前言

在《AI大模型学习路线》第三阶段的第十九章《实战基于Advanced RAG的PDF问答》中，完成检索器优化和生成器增强后，最后一环就是系统的部署与测试。这不仅是AI项目工程化的关键步骤，更标志着RAG问答系统从实验代码走向可用工具。

🧠 一、背景：为什么系统部署与测试如此重要？

场景	说明
产品上线	用户能交互问答、上传PDF并获取结果
团队协作	模块化部署方便多人协同
云端服务	可供前端调用或对外开放 API
性能评估	真实用户交互是RAG系统有效性的试金石

✅ 二、系统部署结构图（模块化示意）

            ┌────────────┐
            │  用户前端  │
            │(PDF上传 + 问答)│
            └────┬───────┘
                 │
        ┌────────▼────────┐
        │ FastAPI / Gradio│  ⬅ Web服务层
        └────────┬────────┘
                 │
       ┌─────────▼──────────┐
       │ RAG Pipeline 调用模块 │
       │(加载PDF、检索、生成器) │
       └─────────┬──────────┘
                 │
        ┌────────▼────────┐
        │ 向量数据库（如FAISS）│
        └─────────────────┘

💻 三、Python代码部署方式详解（推荐FastAPI/Gradio）

方式一：🚀 使用 FastAPI 部署 API 服务（适合接入前端）

✅ 安装依赖：

pip install fastapi uvicorn langchain openai faiss-cpu PyPDF2

✅ `rag_api.py` 核心代码：

from fastapi import FastAPI, UploadFile, File
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

import tempfile

app = FastAPI()

# 初始化LLM与Embedding
llm = ChatOpenAI(temperature=0.3, model_name="gpt-4")
embedding = OpenAIEmbeddings()

@app.post("/upload/")
async def upload_pdf(file: UploadFile = File(...)):
    # 保存PDF临时文件
    temp_file = tempfile.NamedTemporaryFile(delete=False)
    temp_file.write(await file.read())
    temp_file.close()

    # 加载PDF并切块
    loader = PyPDFLoader(temp_file.name)
    pages = loader.load()

    from langchain.text_splitter import RecursiveCharacterTextSplitter
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=50)
    docs = text_splitter.split_documents(pages)

    # 建立向量数据库
    vector_store = FAISS.from_documents(docs, embedding)
    retriever = vector_store.as_retriever()

    # 构建RAG链
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

    return {"message": "PDF 已上传并建库成功，可开始问答！"}

@app.get("/ask/")
async def ask_question(q: str):
    answer = qa_chain.run(q)
    return {"question": q, "answer": answer}

✅ 启动服务：

uvicorn rag_api:app --reload

然后你可以：

POST /upload/ 上传 PDF；
GET /ask?q=你的问题 进行问答。

方式二：🧪 使用 Gradio 构建交互式测试界面（适合原型展示）

✅ 安装 Gradio：

pip install gradio

✅ `gradio_rag.py` 示例代码：

import gradio as gr
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

def process_pdf(file):
    loader = PyPDFLoader(file.name)
    pages = loader.load()
    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
    docs = splitter.split_documents(pages)
    
    global qa_chain
    embedding = OpenAIEmbeddings()
    vector_store = FAISS.from_documents(docs, embedding)
    retriever = vector_store.as_retriever()
    llm = ChatOpenAI(model_name="gpt-4", temperature=0.3)
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
    return "PDF 上传成功，请输入问题。"

def ask_question(question):
    if qa_chain:
        return qa_chain.run(question)
    else:
        return "请先上传PDF文档。"

qa_chain = None

gr.Interface(
    fn=ask_question,
    inputs="text",
    outputs="text",
    title="PDF智能问答系统",
    description="上传文档后提问，系统将基于文档回答问题。",
    live=True,
    theme="default"
).launch(share=True, server_port=7860)

🧪 四、系统测试建议（功能+性能）

✅ 功能测试点：

测试项	目标
上传 PDF 能否正常解析	支持图文、表格
是否能准确回答问题	结合文档上下文
是否返回来源信息	页码/段落内容
多次提问是否稳定	连续对话场景

✅ 性能测试点：

测试项	建议工具
接口响应时间	Postman / curl
Token 长度控制	tiktoken
多用户并发	ApacheBench / locust
资源占用（内存/CPU）	`top`, `psutil`

📦 五、可选高级部署策略

部署方式	技术推荐	特点
Docker化	Dockerfile + uvicorn	可移植、便于云部署
云函数API	AWS Lambda / Azure Function	低成本、按调用计费
微服务部署	FastAPI + Nginx + Gunicorn	面向生产环境
Web前端接入	React / Vue + API	对接现有系统

✅ 六、总结：Advanced RAG PDF问答部署核心要点

阶段	关键点
模型	使用 GPT-4 + 可选 HuggingFace
检索	FAISS/BM25 + Chunking 优化
生成	Prompt控制 + 多语言/格式输出
接口部署	FastAPI/Gradio 快速搭建服务
测试保障	全面测试功能、性能、稳定性

北京朝阳AI社区

更多推荐

百度百舸 4 天跑完 LLaVA-OneVision-1.5 预训练，刷新多模态大模型纪录！

如今，无论是资源有限的研究机构、追求效率的企业团队，还是探索创新的初创开发者，都能在百舸平台轻松开启 AI 模型研发：快速搭建高性能训练环境，借助 AIAK 工具链实现多模态训练加速，更可复用 LLaVA-OneVision-1.5 的开源方案，在可控成本下迭代出贴合自身业务场景的专属 AI 模型。训练阶段的超参设置、任务划分、迭代节奏等关键信息，已通过开源脚本完整记录 —— 对比传统仅开放权重下