基于RAG与大模型的医疗问答知识库构建简介，大模型入门到精通，收藏这篇就足够了！

RAG，本质上是一种结合搜索技术和大型语言模型（LLMs）的技术。它通过从数据源中检索信息来辅助LLM生成答案。

瓦罗兰特顶级C位

460人浏览 · 2025-09-24 14:06:51

瓦罗兰特顶级C位 · 2025-09-24 14:06:51 发布

RAG，是一种把“检索”与“生成”无缝拼在一起的技术框架。它既不指望大模型记住所有知识，也不满足于传统检索只给出一堆文档，而是让两者取长补短： 检索器（Retriever）负责“查资料”，生成器（Generator）负责“写答案”。

RAG，本质上是一种结合搜索技术和大型语言模型（LLMs）的技术。它通过从数据源中检索信息来辅助LLM生成答案。具体来说，RAG利用搜索算法找到的信息作为背景上下文，将这些查询和检索到的上下文信息整合进发送给LLM的提示中。这样，大模型在回答提出的问题时，可以在搜索到的信息的基础上进行生成，从而提供更准确和全面的答案。

RAG基本原理

**检索：**根据用户的查询内容，从外部知识库获取相关信息。具体而言，将用户的查询通过嵌入模型转换为向量，以便与向量数据库中存储的相关知识进行比对。通过相似性搜索，找出与查询最匹配的前K个数据。
**增强：**将用户的查询内容和检索到的相关知识一起嵌入到一个预设的提示词模板中，作为语言大模型的上下文输入。
**生成：**大语言模型根据增强后的输入生成回答，结合外部知识内容，提升输出的专业性和准确性。

RAG的基本工作原理

定义知识库

知识库通常指的是经过组织、系统化存储的知识集合，能够被方便地检索、查询和更新。它不仅仅是数据的简单堆积，而是有结构、有分类，可能还包含元数据、索引等，方便用户高效获取信息。

医疗知识库痛点分析

A-数据源头：活数据难采、古籍海量但沉睡。

1.四诊信息主观性强。

脉象“弦细”、舌苔“薄白”缺乏统一量化口径，导致临床数据无法直接入表。

2.医案非结构化比例高
历代医案以文言、半文言书写，实体关系稀疏，NER+F1 值普遍 < 0.7。

3 高质量数据私有化
名老中医经验沉淀在个人笔记、手抄本或私有 HIS 中，医院层面难以合规汇聚。

B-数据标准：缺顶层、缺映射、缺维护
1 .缺国家层面中医 EMR 模板(标准化电子病历模板)
西医有 ICD-10/ICD-9-CM，中医仍靠各医院自定义 1000+ 症状术语。
2 .中西医术语映射断裂
“肝阳上亢”与“高血压”无法一一对应，导致联合科研与医保结算受阻。
3.动态维护机制空白
指南、药典、专家共识年更新率 >15%，但知识库版本迭代滞后 2–3 年。

C-技术落地：模型难训、算力难筹、接口难接

小样本、高维度
某三甲医院 5 年仅累积 2 万条带标注的四诊-辨证-处方三元组，远低于 NLP 训练所需规模。
2.算法解释性不足
黑箱模型给出“柴胡疏肝散+丹参”推荐，却无法用君臣佐使理论说服医生。
院内系统烟囱林立
HIS、LIS、PACS、EMR 由不同厂商承建，缺少标准 API，知识库难以实时写回。

系统功能模块设计

基于RAG与垂直领域大模型的AI检索知识库的构建

1.语料库与知识库构建阶段

构建用于检索的语料库的过程，包括“文档数据提取与处理——文本分块—文本向量化—创建索引—导入向量数据库”几步。这一阶段的关键是如何通过各类技术，构建有效的知识语料库，以提供给模型用于生成文本的信息。

在RAG的流程中，知识库扮演着关键角色。为了让模型能“现查现答”，我们需要先把领域知识转化为便于检索的向量形式。整个过程大致包括四个步骤，如图所示：

**文档解析：**将用户上传的知识文档（如 PDF、Word、网页等）解析成纯文本。也就是把结构化或非结构化的数据转化为可处理的文字内容。

**文档切分：****在 RAG 系统中，大模型并不是直接读取整篇文档，而是将文档切分成一段段“小块”（chunks）来处理。**由于向量模型的输入长度有限，我们需要把长文档拆成适当大小的片段（比如按段落或句子切分），确保每段内容都能被向量模型正常处理。

**向量化：**使用嵌入模型（如 OpenAI Embedding、BGE、text2vec 等）将每个文本片段转换成向量。这个向量可以看作是该片段的“语义表示”，后续检索就靠它来找“语义上相似”的内容。

**向量存储：**将所有向量以及对应的原始文本、文件名等元数据，存入向量数据库中。常见的向量库包括 Milvus、FAISS、Elasticsearch 等。（向量数据库存储元数据）

完成以上步骤后，当用户提问时：系统会将问题同样进行向量化；在向量库中找出与问题最相关的几个文本片段；再把这些内容和用户提问拼接成一个 Prompt，交给大语言模型生成答案。

2.问题理解和检索阶段

RAG接收用户输入的问题或请求。然后，利用检索模块对问题进行分析和理解，将其转化为适合检索的形式（文本嵌入，形成问题文本的嵌入向量）。接着，从预定义的知识库、文档集合或向量数据库中，通过相似度匹配、关键词搜索等技术，找到与问题最相关的文本片段。这些文本片段可以是短语、句子、段落甚至是整个文档，它们包含了回答问题所需的关键信息。

具体而言：将文本分割成块，然后使用一些 Transformer Encoder 模型将这些块嵌入到向量中，将所有这些向量放入索引中，最后创建一个 LLM 提示，告诉模型回答给定我们在搜索步骤中找到的上下文的用户查询。

在运行时，我们使用同一编码器模型对用户的查询进行向量化，然后搜索该查询向量的索引，找到 top-k 个结果，从我们的数据库中检索相应的文本块，并将它们作为上下文输入到 LLM 提示中。

3.生成阶段

在获取相关文本片段后，RAG 模型将这些片段与原始问题结合，作为上下文信息输入到生成模型（如GPT、百度千帆、文心一言、通义千问等大语言模型）中。大语言模型基于输入的问题和上下文信息，利用其强大的语言生成能力，生成最终的答案或文本输出。

4.输出优化阶段

为确保生成的答案准确、相关且符合逻辑，RAG 模型通常会在生成阶段加入后处理步骤。例如，对生成的答案进行置信度评估，判断答案的可靠性；进行多候选答案筛选，从多个生成的答案中选择最优的结果；对答案进行语法和语义检查，修正可能存在的错误。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

北京朝阳AI社区

更多推荐

2025云栖大会

大会期间，阿里宣布与英伟达合作推进Physical AI，覆盖数据合成、模型训练、仿真强化学习等全流程，并发布磐久128超节点AI服务器，支持128个AI芯片协同工作，强调低延迟、高带宽特性，适用于自动驾驶、机器人等边缘场景。例如，在智能座舱领域，阿里与高通、斑马智行合作推出端侧大模型解决方案“Auto Omni”，实现车内交互的本地化处理，凸显边缘计算在垂直行业的落地深化。例如，农村边缘节点可支

北京朝阳AI社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客

北京朝阳AI社区

数据共享视角下交通行业高质量数据集建设研究

数据作为新型生产要素，在交通行业数字化转型中发挥着关键作用。然而，当前交通行业数据共享程度低、数据质量参差不齐，严重制约了行业大模型训练和智能化应用。本文从数据共享视角出发，深入剖析交通行业数据集建设的理论基础、技术路径和制度保障，提出构建"采-存-算-用"全生命周期数据治理体系，通过区块链、隐私计算等技术破解数据共享难题，打造覆盖"人-车-路-环"全要素的高质量交通数据集。