LangChain部署RAG part1(背景概念)（赋范大模型社区公开课听课笔记）

欧姆弥赛亚钦点机油佬

228人浏览 · 2025-10-07 19:28:55

欧姆弥赛亚钦点机油佬 · 2025-10-07 19:28:55 发布

多模态RAG技术体系：从基础原理到企业级实战全解析

在大模型技术飞速发展的今天，“知识库问答”已成为主流应用场景，但大模型固有的幻觉、上下文限制、知识时效性不足等问题，始终制约着应用落地效果。而多模态RAG（Retrieval-Augmented Generation，检索增强生成）技术的出现，不仅解决了传统文本RAG的局限，更实现了对图片、表格、公式等多模态信息的高效处理，成为大模型Agent开发的核心支撑。本文将从技术原理、核心流程、关键工具到实战方案，全面拆解多模态RAG技术体系。

一、RAG技术基础：为何它是大模型的“知识外挂”？

在深入多模态之前，我们首先要理解传统RAG的核心价值——它本质是为大模型搭建“实时更新的外部知识库”，通过“检索-增强”的闭环，弥补大模型三大核心缺陷。

1. 大模型的三大技术痛点

大模型之所以需要RAG，根源在于其训练与推理机制的固有局限：

幻觉问题：大模型基于概率生成文本，缺乏事实核查能力，易“无中生有”。例如第一代DeepSeek R1模型平均每7次回答就有1次幻觉，而即使顶尖模型如GPT-4o幻觉率也达1.5%。
上下文窗口限制：早期大模型仅支持8K Token（约8-10页PDF），虽现如GPT-4.1已支持1M Token（约1.5本《红楼梦》），但面对海量文档仍显不足。
知识时效性与专业性不足：大模型训练数据有“截止日期”（如本文参考模型知识截止到2024年6月），无法覆盖最新动态；且在医学、法律等专业领域，训练数据深度不足，难以支撑精准问答。

2. RAG的核心原理：四步实现“检索增强”

传统RAG通过“文档处理-向量匹配-上下文拼接-生成回答”的线性流程，为大模型补充精准知识，具体步骤如下：

文档切分（Text Split）：将长文档拆分为语义完整的片段（Chunk），避免因文本过长导致的语义断裂。例如将一段关于AI发展的文本，拆分为“21世纪AI行业应用”“Transformer架构影响”“数据隐私议题”3个Chunk。
向量嵌入（Embedding）：通过预训练模型将文本片段与用户问题转化为数值向量（词向量），例如Chunk1转化为[1,1,2]，用户问题“21世纪AI技术”转化为[1,1,1]。
相似度匹配：在向量数据库中计算“问题向量”与“文档向量”的相似度（如余弦相似度），筛选出最相关的文档片段。
增强生成：将“用户问题+匹配文档”拼接为Prompt，输入大模型生成基于事实的回答，从根本上减少幻觉。

3. 从传统RAG到多模态RAG：技术演进的必然

传统RAG仅能处理纯文本，而现实场景中，知识常以“文本+表格+图片+公式”的多模态形式存在（如学术论文、工业手册、医疗报告）。例如一份技术文档中，“产品参数”以表格呈现，“结构示意图”以图片呈现，“计算公式”以LaTeX格式呈现——这些内容无法被传统文本RAG解析，多模态RAG由此应运而生，其核心目标是：跨模态整合信息，实现“文本、图像、表格、公式”的统一检索与理解。

二、多模态RAG核心流程：四步搭建完整系统

多模态RAG的核心挑战在于“如何将非文本信息转化为可检索的结构化数据”，其搭建需经历四大关键环节，且文档解析与内容提取通常同步进行。

1. 环节1：多模态文档结构解析——让机器“看懂”文档布局

PDF等多模态文档本质是“排版导向”格式，需先拆解其空间结构，才能精准提取内容。解析过程分为四层：

版面区域划分：通过OCR模型（如PaddleOCR）或版面分析模型（如LayoutLM），识别文档中的“标题、正文、表格、图片、页眉页脚”等区域，例如将一页学术论文划分为“摘要区、图表区、公式区、参考文献区”。
层次结构建模：还原文档的逻辑层级（如“章节→小节→段落→句子”），确保检索时能定位到具体语义单元。例如用户查询“3.2节算法原理”，系统可直接召回对应小节内容，而非全文搜索。
表格与图表解析：表格需提取行列结构并转化为CSV/JSON；图表需通过VLM模型（如GPT-5、InternVL）提取数据点与趋势描述（如“2024年AI市场规模同比增长15%”）。
跨模态信息融合：建立不同模态的关联，例如将“公式（3.1）”与正文“公式应用场景”绑定，确保检索时能同步召回相关文本与公式。

2. 环节2：多模态内容提取——从“图像”到“结构化数据”

解析文档结构后，需针对不同模态元素提取信息，核心依赖两类技术：

OCR技术：轻量高效，适合提取“文本类多模态内容”（如表格、公式、手写体），无需GPU即可运行。例如用PaddleOCR识别扫描件中的表格文字，或用dots.ocr解析多语种论文中的公式。但OCR仅能识别字符，无法理解图像语义（如产品示意图的结构关系）。
VLM模型（视觉语言模型）：具备“图像理解+推理”能力，可处理非文本类图像（如风景图、流程图、手写笔记）。例如用GPT-5分析一张“高等数学笔记”图片，能识别出“第18题极限求解”“红笔批注的错误修正”等细节；用InternVL 3.5解析工程图纸，能提取“零件尺寸、装配关系”等语义信息。

3. 环节3：多模态信息向量化与存储——统一语义空间

多模态内容需转化为“同维度向量”才能实现混合检索，关键在于“跨模态嵌入模型”：

文本向量：通过BERT、Sentence-BERT等模型生成，保留文本语义。
图像向量：通过CLIP、BLIP2等模型生成，将图像转化为与文本向量同维度的数值（如512维），例如一张“太阳系模拟器”图片的向量，与文本“太阳系行星公转动画”的向量相似度极高。
表格/公式向量：先将表格转化为“文本描述+结构化数据”（如“产品A参数：电压5V，电流100mA”），公式转化为LaTeX文本，再通过文本嵌入模型生成向量。

存储时，通常采用“向量数据库+文件系统”的组合：向量数据库（如Chroma、Milvus）存储向量用于快速匹配；文件系统（如本地文件夹、云存储）保存原始图像、表格文件，并通过链接与向量关联（如Markdown中的![表格1](path/table1.png)）。

4. 环节4：多模态信息混合检索——精准匹配用户需求

检索时需根据用户查询类型（文本/图像），选择对应的检索策略：

文本查询：用户输入文本（如“太阳系模拟器的实现技术”），系统生成文本向量，同时匹配“文本向量库”（召回相关技术描述）与“图像向量库”（召回模拟器截图），再将结果融合排序。
图像查询：用户上传图像（如一张“粒子漩涡效果图”），系统生成图像向量，匹配图像向量库，同时召回与图像相关的文本描述（如“粒子漩涡的JavaScript实现代码”）。
混合查询：用户输入“请解释图1中的公式（3.1）”，系统先通过图像向量匹配“图1”，再通过文本向量匹配“公式（3.1）”的相关解释，实现跨模态关联检索。

三、多模态RAG关键工具：模型与产品选型指南

搭建多模态RAG系统无需从零开发，现有开源工具已覆盖“OCR、VLM、PDF转Markdown”等核心需求，需根据场景选择合适工具。

1. OCR模型选型：轻量高效优先

OCR是多模态RAG的“底层引擎”，负责提取文本类多模态内容，三大主流模型对比如下：

模型	发布团队	参数规模	核心优势	适用场景
dots.ocr	HiLab社区/开源社区	~1.7B	一体化VLM架构，多语种/复杂表格解析精准	学术论文、票据类端到端解析
olmOCR	Allen Institute for AI	7B	保持文档阅读顺序，支持手写体/公式	大规模PDF转文本（如科研批处理）
PaddleOCR	百度飞桨	轻量3-10M；高精度百MB级	生态完善，支持80+语种，CPU可运行	工业票据识别、大规模生产环境OCR服务

选型建议：若需处理复杂表格/多语种，选dots.ocr；若需批量转化PDF为文本，选olmOCR；若需低成本部署（如CPU端），选PaddleOCR轻量版。

2. VLM模型选型：平衡性能与成本

VLM模型负责“图像语义理解”，分为在线API与开源模型两类，需根据“预算、隐私需求、推理性能”选择：

模型	类型	参数规模	核心特点	适用场景
GPT-5	在线API	百亿+	原生多模态（文本/图像/音频），推理强	企业级RAG、复杂代理任务（如医疗报告解析）
Gemini 2.5	在线API	数百亿	长上下文（百万Token），与搜索/Workspace集成	长文档检索、跨平台企业应用
InternVL 3.5	开源	8B-40B	Cascade RL强化推理，图表解析精准	科研论文解析、图表问答（需中高端GPU）
Qwen3-VL	开源	3B/7B/72B	多语言文档解析，长视频理解	企业文档检索、多语言跨模态应用
SmolVLM	开源	1B-2B	轻量低算力，笔记本/GPU可运行	教学实验、个人轻量项目

选型建议：若追求极致性能且预算充足，选GPT-5/Gemini 2.5；若需隐私部署（离线运行），选InternVL 3.5（科研场景）或Qwen3-VL（企业场景）；若为个人学习，选SmolVLM。

3. PDF转Markdown工具：从“格式转换”到“知识结构化”

PDF转Markdown是多模态RAG的“关键前置步骤”，能将复杂PDF转化为轻量结构化格式，三大主流工具对比如下：

工具	发布团队	许可证	核心优势	适用场景
MinerU	阿里巴巴达摩院+OpenDataLab	AGPL-3.0	公式/表格解析精度高，CLI易用	科研PDF批量转Markdown、高质量知识库构建
Docling	IBM Research	MIT	支持多格式（PDF/Word/PPT），可接入VLM	企业级文档解析、合规环境下离线知识库
MarkItDown	Microsoft	MIT	轻量快速，插件可调用Azure/LLM增强	通用RAG项目快速预处理、轻量知识库构建

选型建议：科研场景优先MinerU（公式精准）；企业商用优先Docling（MIT许可无闭源限制）；个人项目/快速验证优先MarkItDown（部署简单）。

四、多模态RAG实战方案：三种主流PDF检索策略

在实际开发中，需根据PDF的“结构化程度”与“应用场景”，选择不同的处理策略，三种核心方案对比如下：

1. 结构解析重建法：高精度还原，适合学术/技术文档

核心思路：先完整识别PDF结构，再逐一解析元素，最终统一转为Markdown，保留所有语义关联。

步骤：① 版面解析（识别标题/表格/公式）→② 元素分离（文本保留层级，图片/表格单独保存）→③ 内容识别（OCR提取表格文字，VLM理解示意图）→④ 生成Markdown（文本+图片链接+表格代码块）。
优势：结构完整，文本与多模态内容可溯源，适合精细化检索（如“查找3.2节的公式（3.1）及对应的实验图表”）。
适用场景：学术论文、技术白皮书、科研报告。

2. 轻量化并行存储法：高效快速，适合非结构化文档

核心思路：不追求完整结构还原，将PDF切分为“文本单元”与“多模态单元”，分别存储与检索。

步骤：① 切分PDF为“页/段落/图片”→② 文本单元直接向量化，图像单元用CLIP生成向量→③ 检索时，文本查询匹配文本向量库，图像查询匹配图像向量库→④ 融合结果排序。
优势：处理速度快，扩展性强，支持文本与图片混合检索（如“查找与‘产品外观图’相关的参数描述”）。
适用场景：企业报告、产品说明书、合同文档。

3. 知识单元抽取法：语义驱动，适合专业领域

核心思路：不仅解析格式，更提取“实体、关系、事件”等知识单元，支持结构化查询。

步骤：① 解析PDF并提取文本/表格/公式→② 抽取知识（如表格转为CSV，公式转为LaTeX，实体（如“AI市场规模”）与关系（“2024年同比增长15%”）绑定）→③ 构建“向量库+知识库”（向量库存语义向量，知识库存结构化数据）→④ 检索时支持“语义查询（如‘AI市场增长趋势’）+结构化查询（如‘查找2024年AI市场规模数据’）”。
优势：支持复杂知识推理，适合专业领域的深度检索。
适用场景：金融分析报告、法律文档、医疗病例。