【收藏必备】从零开始搭建本地RAG系统：LangChain+Qwen3+BGE-M3打造专属文档问答机器人

本文介绍如何利用LangChain框架整合Qwen3-7B大模型与BGE-M3嵌入模型搭建本地RAG系统，解决大模型知识时效性差、个性化能力弱和易产生幻觉的问题。通过4位量化技术将Qwen3-7B显存需求从24GB降至8GB，实现私有文档的安全问答。文章详细解析了技术选型理由（LangChain+BGE-M3+Qwen3的本地化中文方案），并分步骤演示从环境配置到代码实现的全流程，包括文档处理、向

耿直学编程

585人浏览 · 2025-10-03 21:30:00

耿直学编程 · 2025-10-03 21:30:00 发布

本文详细介绍如何使用LangChain框架整合Qwen3大模型与BGE-M3嵌入模型，搭建本地运行的RAG系统。通过4位量化技术降低硬件门槛至8GB显存，解决大模型知识时效性差、个性化能力弱和易产生幻觉的问题，实现基于私有文档的安全问答。文章包含环境准备、代码实现和测试全流程，适合企业私有化部署和个人学习使用。

为什么选择RAG？聊聊大模型的“知识痛点”

在正式动手前，我们先搞懂一个核心问题：为什么需要RAG？

大模型像GPT-4和Qwen这类的呢，虽然可以应对很多很多的通用问题，可是它们有两个特别要命的缺点：

1.知识时效性不太好：训练数据截止到某个特定的时间（就像Qwen3训练数据截止到2024年初那样），没办法获取最新的信息；

2.个性化能力弱：无法理解企业内部文档、个人笔记等私有数据；

3.易产生“幻觉”：对不确定的问题会编造看似合理的答案，无法溯源信息来源。

而RAG通过“检索生成”的组合完美解决这些问题：

检索：从本地文档库中精准找到与问题相关的片段；
生成：让大模型基于检索到的“事实依据”回答问题，确保答案准确、可溯源

直接讲RAG就像是给大模型安上了一个本地的知识仓库，既能让大模型具备语言理解的能力，又能把数据隐私和知识专属的问题给解决了。

技术选型：为什么是LangChain+Qwen3+BGEM3？

搭建RAG系统得有三大关键组件，分别是文档处理框架、大语言模型（LLM以及嵌入模型（Embedding）。我们在选择这些组件时，主要从“本地化、对中文友好、资源消耗低”这个方面去考虑的：

组件类型	选型	核心优势
文档处理框架	LangChain	一站式整合文档加载、分割、向量存储、检索链，降低开发门槛
大语言模型（LLM）	Qwen3-7B-Instruct	阿里达摩院开源模型，中文处理能力强，7B 参数支持 4 位量化，本地 GPU 可运行
嵌入模型（Embedding）	BAAI/bge-m3	中科院自动化所开源，中文嵌入效果顶尖，支持检索优化指令，精度高于传统模型
向量数据库	Chroma	轻量级本地向量库，无需复杂部署，支持持久化存储，适配 LangChain

除此之外，我们还用到BitsAndBytes量化技术，将Qwen3-7B模型压缩到4位精度，原本需要24GB显存的模型，现在8GB显存就能运行，大大降低硬件门槛。

手把手搭建：从环境准备到代码实现

接着开始实战部分啦，咱们把RAG系统搭建分成4步来进行，每一步都有着详细的讲解呢，就算是新手也能够很顺畅地跟得上哟。

3.1 环境准备：安装依赖库

先确定你的电脑已安装了Python3.8以及更高版本，与此同时拥有NVIDIAGPU（显存最好大于或等于8GB）。接着打开终端，接着执行以下这些命令来安装依赖：

# 基础依赖pip install langchain chromadb transformers torch# 文档加载与处理pip install sentence-transformers python-dotenv# 量化相关（4位量化需要）pip install bitsandbytes accelerate# 可选：如果需要处理PDF/Word文档，安装额外加载器pip install pypdf python-docx

3.2 核心代码解析：从配置到问答的全流程

我们的代码分为5个核心模块：配置类、RAG系统初始化、文档处理、向量库加载、问答交互。下面逐模块拆解，理解每个环节的作用。

配置类：统一管理参数，便于修改

先对Config类进行定义，把文档路径、模型名称、量化配置等这些参数都集中到一起进行管理，这样之后要是需要修改的话，就不用到处去寻找代码啦：

classConfig:    # 文档相关：指定文档存放目录、分块大小    DOCUMENTS_DIR = "documents"# 本地文档目录（需手动创建）    CHUNK_SIZE = 500             # 每个文本块的字符数（中文适配）    CHUNK_OVERLAP = 50           # 块间重叠字符数（避免分割丢失上下文）        # 模型相关：指定嵌入模型和LLM    EMBEDDING_MODEL_NAME = "BAAI/bge-m3"# 中文嵌入效果顶尖    LLM_MODEL_NAME = "Qwen/Qwen3-7B-Instruct"# 中文友好的7B模型        # 检索相关：向量库存储路径、检索数量    VECTOR_DB_DIR = "vector_db_qwen_bge_m3"# 向量库持久化目录    TOP_K = 3                               # 每次检索返回3个相关片段        # 量化配置：降低显存占用    USE_4BIT_QUANTIZATION = True  # 启用4位量化（8GB显存必备）

RAG系统初始化：加载嵌入模型与LLM

RAGSystem类是核心，负责初始化嵌入模型和LLM，这是系统的“大脑”和“眼睛”：

. 嵌入模型BGEM3）：将文本转化为向量数字），用于后续检索

LLM（Qwen3）：基于检索到的文本片段生成自然语言回答

（1）初始化嵌入模型：给文本“编数字”

BGEM3有一个关键优化：支持查询指令，能让查询向量更精准。例如在生成查询向量时，添加“为这个句子生成表示以用于检索相关文章：”前缀提升检索命中率：

def_init_embeddings(self):    print(f"加载BGE-M3嵌入模型: {self.config.EMBEDDING_MODEL_NAME}")    # BGE-M3专属查询指令，优化中文检索效果    query_instruction = "为这个句子生成表示以用于检索相关文章："    return HuggingFaceBgeEmbeddings(        model_name=self.config.EMBEDDING_MODEL_NAME,        model_kwargs={'device': 'cuda'if torch.cuda.is_available() else'cpu'},        encode_kwargs={'normalize_embeddings': True}, # 向量归一化，提升检索精度        query_instruction=query_instruction    )

（2）初始化LLM：给系统“装大脑”

Qwen3-7B模型默认需要24GB显存，我们通过4位量化将其压缩到8GB以内。这个时候Qwen有专属的提示词格式（<|im_start|>/<|im_end|>），需要自定义格式函数适配：

def_init_llm(self):    print(f"加载Qwen3模型: {self.config.LLM_MODEL_NAME}")        # 4位量化配置：关键优化，降低显存占用    quantization_config = None    if self.config.USE_4BIT_QUANTIZATION and torch.cuda.is_available():        quantization_config = BitsAndBytesConfig(            load_in_4bit=True,            bnb_4bit_use_double_quant=True, # 双重量化，进一步压缩            bnb_4bit_quant_type="nf4", # 适配大模型的量化类型            bnb_4bit_compute_dtype=torch.float16        )        # 加载tokenizer和模型（device_map="auto"自动分配GPU/CPU）    tokenizer = AutoTokenizer.from_pretrained(self.config.LLM_MODEL_NAME)    model = AutoModelForCausalLM.from_pretrained(        self.config.LLM_MODEL_NAME,        quantization_config=quantization_config,        device_map="auto",        torch_dtype=torch.float16,        trust_remote_code=True# 加载Qwen的自定义代码    )        # Qwen专属提示词格式：必须严格遵循，否则模型无法正常响应    defqwen_prompt_format(prompt):        returnf"<|im_start|>system\n你是一个 helpful 的助手，基于提供的上下文回答问题。<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"        # 创建文本生成pipeline，包装成LangChain的LLM    pipe = pipeline(        "text-generation",        model=model,        tokenizer=tokenizer,        max_new_tokens=500, # 最大生成500个字符        temperature=0.7, # 随机性：0=严谨，1=灵活        repetition_penalty=1.1, # 避免重复生成        pad_token_id=tokenizer.pad_token_id,        eos_token_id=tokenizer.eos_token_id,        prompt_format_template=qwen_prompt_format    )        return HuggingFacePipeline(pipeline=pipe)

文档处理：从“原始文档”到“向量库”

文档处理是RAG的“地基”，直接影响检索精度。这一步分为3个关键操作：加载文档→分割文档→创建向量库。

(1) 加载文档：支持多格式（TXT/PDF/Word）

我们用DirectoryLoader批量加载documents目录下的文档，默认支持TXT格式，若需处理PDF/Word，只需替换loader\_cls为PyPDFLoader/Docx2txtLoader：

defload_and_process_documents(self):    start_time = time.time()        # 加载文档：glob="*.txt"指定只加载TXT文件    loader = DirectoryLoader(        self.config.DOCUMENTS_DIR,        glob="*.txt",        loader_cls=TextLoader,        loader_kwargs={"encoding": "utf-8"} # 解决中文乱码问题    )    documents = loader.load()        ifnot documents:        raise ValueError(f"请在 {self.config.DOCUMENTS_DIR} 目录中添加文档")    print(f"成功加载 {len(documents)} 个文档")

（2）分割文档：中文适配的“黄金分割点”

大模型有上下文长度限制（如Qwen3-7B支持8k tokens），若直接将长文档传入，会丢失上下文。我们用RecursiveCharacterTextSplitter按中文标点分割，避免将完整句子切散：

# 分割文档：按“段落→句子→标点”分层分割，保留中文语义text_splitter = RecursiveCharacterTextSplitter(    chunk_size=self.config.CHUNK_SIZE,    chunk_overlap=self.config.CHUNK_OVERLAP,    separators=["\n\n", "\n", "。", "，", "；", "、", " ", ""] # 中文优先分割符)texts = text_splitter.split_documents(documents)print(f"文档分割完成，得到 {len(texts)} 个文本块")

（3）创建向量库：将文本块“存入数据库”

用Chroma向量库存储文本块的向量，后续检索时，只需将问题转化为向量，与库中的向量计算相似度，就能快速找到相关片段：

# 创建并持久化向量库：下次运行可直接加载，无需重新处理self.vector_db = Chroma.from_documents(    documents=texts,    embedding=self.embeddings,    persist_directory=self.config.VECTOR_DB_DIR)self.vector_db.persist()# 创建检索链：将“检索”与“生成”串联self.qa_chain = RetrievalQA.from_chain_type(    llm=self.llm,    chain_type="stuff", # 简单高效：将所有相关片段传入LLM    retriever=self.vector_db.as_retriever(search_kwargs={"k": self.config.TOP_K}),    return_source_documents=True# 返回源文档，便于溯源)end_time = time.time()print(f"文档处理完成，耗时 {end_time - start_time:.2f} 秒")

问答交互：从“问题”到“答案”的闭环

最后，实现query方法，接收用户问题，调用检索链生成答案，并返回源文档片段（便于验证答案准确性）：

defquery(self, question: str):    ifnot self.qa_chain:        raise ValueError("请先加载文档或向量库")        start_time = time.time()    print(f"处理查询: {question}")        # 执行检索增强生成：先检索相关片段，再生成答案    result = self.qa_chain({"query": question})        end_time = time.time()    print(f"查询处理完成，耗时 {end_time - start_time:.2f} 秒")        return result

主函数：一键运行系统

在if name == "main":中，我们实现“自动创建示例文档→初始化系统→加载向量库→测试问答”的全流程：

if __name__ == "__main__":    os.environ["TOKENIZERS_PARALLELISM"] = "false"# 避免tokenizer并行警告        # 初始化配置与系统    config = Config()    rag_system = RAGSystem(config)        # 首次运行：创建示例文档（数据科学、LLM应用相关）    ifnot os.listdir(config.DOCUMENTS_DIR):        print("创建示例文档...")        create_sample_documents(config.DOCUMENTS_DIR)        # 加载向量库：存在则直接加载，不存在则重新处理文档    ifnot rag_system.load_existing_vector_db():        rag_system.load_and_process_documents()        # 测试中文问答    test_questions = [        "数据科学工作流包括哪些步骤？",        "大语言模型有哪些主要应用场景？"    ]        # 输出结果：包含答案和源文档片段    for question in test_questions:        print("\n" + "="*80)        print(f"问题: {question}")        result = rag_system.query(question)                print("\n回答:")        print(result["result"])                print("\n相关文档片段:")        for i, doc in enumerate(result["source_documents"], 1):            print(f"\n文档 {i}:")            print(f"来源: {doc.metadata['source']}")            print(f"内容: {doc.page_content[:200]}...")

运行测试：看看系统实际效果

将代码保存为rag\_qwe\_bge.py，执行以下命令运行：

python rag_qwen_bge.py

首次运行时，系统会自动：

在documents目录创建2个示例文档（数据科学、LLM应用）；
下载BGE-M3和Qwen3-7B模型（约10GB，需耐心等待）；
处理文档并创建向量库，存入vector*db*qwen*bge*m3目录。

运行成功后，会输出如下结果（以“数据科学工作流包括哪些步骤？”为例）：

================================

问题: 数据科学工作流包括哪些步骤？处理查询: 数据科学工作流包括哪些步骤？回答:数据科学工作流通常包括以下9个步骤：问题定义：明确业务问题和分析目标，这是整个工作流的基础，确保后续工作围绕核心需求展开；数据收集：获取相关的结构化（如数据库表）和非结构化（如文本、图片）数据；数据清洗：处理数据中的缺失值、异常值和重复数据，保证数据质量，避免影响后续分析结果；探索性数据分析：通过统计方法和可视化工具，理解数据分布、变量关系等，挖掘数据潜在规律；特征工程：对原始数据进行转换、筛选或创建新特征，生成适合机器学习模型输入的特征；模型构建：根据问题类型（如分类、回归）选择适当的机器学习模型，并使用清洗后的数据集进行训练；模型评估：使用准确率、召回率、RMSE等指标评估模型性能，判断模型是否满足业务需求；结果部署：将训练好的模型集成到业务流程中（如API接口、业务系统），实现实际应用；监控与更新：持续监控模型在实际场景中的性能，当数据分布或业务需求变化时，定期更新模型。相关文档片段:文档 1:来源: documents/data_science.txt内容: 数据科学是一个跨学科领域，结合了统计学、机器学习、数据可视化和领域知识，用于从结构化和非结构化数据中提取有价值的 insights。数据科学工作流通常包括以下步骤：问题定义：明确业务问题和分析目标数据收集：获取相关的结构化和非结构化数据数据清洗：处理缺失值、异常值和重复数据探索性数据分析：理解数据分布和变量关系特征工程：创建适合建模的特征模型构建：选择和训练适当的机器学习模型模型评估：使用合适的指标评估模型性能结果部署：将模型集成到业务流程中监控与更新：持续监控模型性能并定期更新

总结：展望，一点建议

本文针对企业私有化、个性化问答需求，提供了基于LangChain+Qwen3+BGEM3的本地RAG系统搭建全流程，通过4位量化技术降低硬件门槛至8GB显存，新手也能落地。
这个方案通过“检索生成”这种方式，把大模型存在的知识会过时、容易产生“幻觉”以及没法适应私有数据这些难题给解决了，既保障了数据的安全，又保证了回答的准确性。
以后本地RAG会朝着更轻、更多种模式的方向去发展呢，给新手的建议是先从最基本的文本开始，把流程熟悉起来，等过了这一步之后呢，就可以去摸索参数的优化以及多种技术融合这样更高级的东西啦。

读者福利大放送：如果你对大模型感兴趣，想更加深入的学习大模型**，那么这份精心整理的大模型学习资料，绝对能帮你少走弯路、快速入门**

如果你是零基础小白，别担心——大模型入门真的没那么难，你完全可以学得会！

👉 不用你懂任何算法和数学知识，公式推导、复杂原理这些都不用操心；
👉 也不挑电脑配置，普通家用电脑完全能 hold 住，不用额外花钱升级设备；
👉 更不用你提前学 Python 之类的编程语言，零基础照样能上手。

你要做的特别简单：跟着我的讲解走，照着教程里的步骤一步步操作就行。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

现在这份资料免费分享给大家，有需要的小伙伴，直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型？

数据显示，2023 年我国大模型相关人才缺口已突破百万，这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代，产业对专业人才的需求将呈爆发式增长，据预测，到 2025 年这一缺口将急剧扩大至 400 万！!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战，跟着学习路线一步步打卡，小白也能轻松学会！
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够，这套学习资料还包含了丰富的实战案例，让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版)，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题，我都给大家汇总好了，能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述
👉获取方式：

😝有需要的小伙伴，可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最适合零基础的！！

北京朝阳AI社区

更多推荐

AI医疗：大数据守护生命健康

医疗设备产生的大数据为人工智能提供了丰富的资源，使得实时健康监测和预测成为可能。通过整合来自可穿戴设备、医院监护仪和远程医疗设备的数据，人工智能模型能够分析患者健康状况，并提供早期预警和个性化建议。完整系统通常采用微服务架构，包括数据采集层、流处理层、模型服务层和可视化层。医疗人工智能的持续发展需要跨学科合作，包括临床医生、数据科学家和伦理专家。随着技术进步和监管框架完善，AI驱动的健康监测将更精

北京朝阳AI社区

AI赋能智能电网：精准预测未来负荷

负荷预测是电力系统运行和规划的关键环节，准确的预测有助于优化发电调度、降低运营成本并提高电网稳定性。特征工程是提升模型性能的关键，可以从时间序列数据中提取小时、星期、月份等时间特征，并结合温度、湿度等外部变量。然而，数据隐私和安全性问题不容忽视，联邦学习技术允许在不共享原始数据的情况下训练模型。人工智能技术，尤其是机器学习和深度学习，能够从历史数据中挖掘复杂的非线性关系，识别负荷变化的潜在模式。通

北京朝阳AI社区

AI预测交通拥堵：智能出行新方案

长短期记忆网络（LSTM）能够捕捉时间序列数据的长期依赖关系，适合处理具有时间特征的交通数据。交通数据常存在噪声和缺失，需要采用插值或滤波技术进行处理。通过人工智能技术分析来自摄像头、传感器、GPS设备等的大数据，可以实时监测交通流量、车速、事故等指标，从而预测未来可能出现的拥堵情况。智能交通系统产生多种类型的数据，包括来自环形线圈检测器、浮动车GPS、视频监控等的实时交通流数据。除了原始流量和速