摘要

大语言模型的突破性发展正推动电子病历从“数字化记录工具”向“智能化决策伙伴”演进。本文系统综述了LLM在电子病历领域的应用现状、核心技术、实施挑战与未来方向。基于对196项研究的系统分析,LLM应用主要集中在临床决策支持(57.1%-62.2%)、病历文书生成(20.4%)、信息抽取(19.9%)等任务,GPT系列和BERT变体是最常采用的模型架构。关键技术包括上下文学习、检索增强生成、参数高效微调和多智能体协同,实现了从传统NLP方法到生成式AI的范式跃迁。欧洲某大学医院的真实世界部署表明,经过隐私保护和流程整合的LLM系统可被64%的试点医生每日使用,五个月内覆盖1028名用户、生成14910次对话。然而,临床部署仍面临可解释性不足、幻觉风险、性能评估框架缺失、数据隐私与公平性等挑战。未来发展方向包括多模态融合、动态自适应系统、标准化评估基准及人机协同的临床整合路径。

关键词:大语言模型;电子病历;临床决策支持;信息抽取;检索增强生成;临床部署

1 引言

电子病历(Electronic Health Records, EHRs)的普及显著改善了患者信息的可及性和连续性,但也带来了临床医生工作负担加重的突出问题。研究表明,医生每日需投入大量时间进行病历记录,部分科室医生超过50%的工作时间用于处理EHR相关任务。以首都医科大学附属北京友谊医院为例,2024年第二季度日均门诊量约1.2万人次,医生在每例患者6-8分钟的诊疗时间外,还需额外投入1.5-2分钟完成病历录入。更重要的是,EHR中高达80%的内容为非结构化自由文本(如病程记录、出院小结、手术记录),传统计算方法难以充分挖掘其中蕴含的临床洞见。

大语言模型(Large Language Models, LLMs)的兴起为破解这一困境提供了新路径。基于Transformer架构的LLM(如GPT系列、BERT、LLaMA等)通过海量数据预训练,具备强大的语言理解、生成和推理能力。自2022年11月ChatGPT发布以来,LLM在医疗领域的应用研究呈指数级增长——仅2023年1月至2024年11月,PubMed和Web of Science收录的相关研究就达18735篇,最终纳入系统分析的196项研究显示,LLM已广泛应用于放射学(26.0%)、肿瘤学(10.7%)、急诊医学(6.6%)等多个专科。

本文旨在系统综述LLM驱动电子病历智能的应用现状、核心技术、实施挑战与未来方向,为医疗信息化从业者和临床研究者提供理论参考与实践指导。

2 LLM在电子病历中的核心应用场景

2.1 临床决策支持

临床决策支持是LLM在EHR领域最主要的应用方向,占全部研究的57.1%-62.2%。LLM通过整合患者的多维数据(病史、检验结果、影像报告等),为医生提供诊断建议、治疗方案选择和风险预警。

在儿科和外科领域,LLM被用于分析复杂病例的临床记录,支持围手术期决策。在肿瘤心脏病学中,Mayo Clinic开发的PrevCardioOncAI系统基于3835例癌症幸存者的89项临床特征,可预测心衰(AUROC 0.845)、房颤(0.783)和复合心血管事件(0.806)。牛津大学团队提出的RiskAgent多智能体系统更实现了从“记忆知识”到“调用工具”的范式跃迁——在包含154种疾病、12352个案例的MedRisk基准测试中,80亿参数的模型准确率达76.33%,显著超越GPT-4o(38.39%)。

2.2 病历文书生成与辅助记录

病历生成是减轻医生文书负担的直接应用。传统方法包括基于规则的抽取式摘要和基于深度学习的生成式摘要。LLM的出现使这一领域取得突破性进展:

文本生成路径:LLM可根据医患对话、临床查房记录等输入源,自动生成结构化、标准化的病历文书。北京友谊医院的研究表明,基于LLM的病历生成可显著提升记录效率,但需应对医患对话不规范、多人对话、医学术语准确生成等挑战。

语音生成路径:基于环境监听技术的“AI scribe”系统可实时听取医患对话并生成临床记录。Kaiser Permanente在17个医疗中心为7000余名医生部署此类系统后,每例患者平均节省约1分钟EHR处理时间,累计节省15700小时,84%的医生反馈AI系统改善了医患互动质量。

系统综述显示,54.5%的外科研究和36.4%的儿科研究将临床文档辅助作为LLM的核心应用场景。欧洲某大学医院的真实世界部署中,病历摘要生成、信息检索和文书起草占用户交互的70%以上。

2.3 临床信息抽取

EHR中80%的信息以非结构化文本形式存在,信息抽取是释放这些数据价值的关键。LLM在信息抽取任务中展现出显著优势:

与传统方法对比:传统规则方法和条件随机场(CRF)等序列标注模型在应对否定表达、时间推理、跨段落依赖和机构间书写习惯差异时表现脆弱。LLM通过“生成即结构化”的范式,可在少样本甚至零样本条件下,将自由文本转换为符合预定义模式的输出(如JSON格式),实现诊断编码、用药记录、表型信息等的自动化提取。

性能提升:系统综述显示,78.1%有传统方法对照的研究报告LLM带来性能提升。纽约大学开发的NYUTron模型可在全院规模预测患者的全因死亡率、再住院率等指标。

2.4 医疗质控与数据治理

医疗质控指标是医院评级和国家考核的重要依据,但传统手段依赖手工报送,效率低且难以溯源。华东理工大学与多家三甲医院合作开发的IMQC平台,基于LLM实现了质控指标的自动化计算:

核心技术:通过指标转换引擎将模糊的质控规则转化为清晰的逻辑关系,结合向量匹配技术实现病历内容的精准溯源,再通过执行引擎完成多事实判断和逻辑推理。

应用成效:以脑出血出院好转率指标为例,系统可自动从病案首页和非结构化文本中抓取多项数据和编码,完成数值计算和逻辑判断,解决了人工抽查在效率和精确度上的局限。

赵霞指出,LLM在病历质控中的应用需组合实体识别、信息抽取、文本分类、文本比对、生成等多种基本功能,实现对病历完整性、逻辑性、符合性、合理性的全面核查。

2.5 医患沟通与个性化服务

LLM可基于患者EHR生成个性化的沟通内容,包括诊疗咨询、用药指导、康复建议、复检提醒等。Tai-Seale等在美国Epic系统中试点了AI生成患者消息回复的功能,但尚未观察到可测量的工作负担减轻。

在患者教育方面,Decker等证实LLM生成的外科手术知情同意书质量可与医生撰写版本相当,甚至在某些维度上更优。Zaretsky等也发现LLM可生成质量可接受的出院小结。

3 关键技术架构与方法

3.1 从传统NLP到LLM的技术演进

电子病历文本处理技术经历了三个主要发展阶段:

技术范式 代表方法 优势 局限性
规则与统计学习 正则表达式、条件随机场(CRF)、词典匹配 可解释性强,计算资源需求低 泛化能力差,维护成本高
深度学习 RNN、LSTM、CNN 上下文建模能力提升 需大规模标注数据,长距离依赖受限
预训练语言模型 BERT、RoBERTa、Longformer 双向上下文编码,任务迁移能力强 仍属“任务专用”范式
生成式大模型 GPT系列、LLaMA、PaLM 零/少样本学习,多任务泛化,结构化输出 计算成本高,可解释性低

LLM的核心突破在于:基于Transformer的自注意力机制可并行处理长序列、捕捉长距离依赖;通过海量数据预训练获得通用语言理解能力;通过指令微调实现任务对齐;通过上下文学习在推理阶段动态适应新任务。

3.2 上下文学习

上下文学习(In-Context Learning)是LLM适应特定领域任务的高效方法,无需大规模调整模型权重。实施步骤包括:

  • 基座选择:选择通用预训练模型(如Baichuan2-Chat)或医学领域微调模型(如HuatuoGPT2)
  • 示例构建:精心标注数个“输入-输出”数据对,帮助模型理解任务格式和内容要求
  • 提示模板:构建结构化提示,将示例与目标输入结合输入模型
  • 性能测试:使用自动指标(ROUGE、BLEU、BERTScore)或临床专家评价生成效果

系统分析显示,9项研究定量评估了上下文学习的效果,但少数研究发现少样本提示可能并不总是带来性能提升。

3.3 检索增强生成

检索增强生成(Retrieval-Augmented Generation, RAG)融合LLM的生成能力与外部知识库的精准检索,是缓解“幻觉”问题的关键技术。RAG在EHR应用中的实现框架包括:

  • 知识库构建:建立包含院内历史病历、诊疗指南、药品说明、临床路径等权威文档的向量数据库
  • 检索模块:通过Elasticsearch(字词匹配)或Faiss/Milvus(向量匹配)检索与输入最相关的片段
  • 增强生成:将检索结果与原始输入拼接形成增强提示,输入LLM生成最终输出

欧洲某大学医院的部署实践表明,将RAG与Qwen3-235B模型结合,可实现对结构化患者数据、院内临床文档、区域医疗规范和医学文献的上下文感知问答。

RAG面临的核心挑战包括:模型需判断何时依赖检索结果、何时基于自身知识生成;检索质量直接影响生成准确性;患者隐私保护要求检索过程在安全环境下进行。

3.4 参数高效微调

面对计算资源限制,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术实现了高效的领域适应。低秩适应(Low-Rank Adaptation, LoRA)是最常用的PEFT方法,通过仅调整少量参数即可实现与全参数微调相当的性能。

系统综述识别出12项研究定量评估了微调策略的效果。值得关注的是,两项研究发现微调较小模型可能超越更大规模的基础模型,这为资源受限环境下的临床部署提供了重要启示。

3.5 多智能体协同系统

RiskAgent等多智能体系统代表了LLM应用的进阶范式。系统包含多个协同工作的LLM智能体:

  • 决策者(Decider):分析医疗问题,从循证医学工具库中选择合适的风险计算器
  • 执行者(Executor):理解选定工具的参数需求,从患者数据中解析必要信息并调用工具
  • 评审者(Reviewer):回顾决策过程,对结果进行反思和验证

这一架构使LLM从“记忆知识”转向“调用工具”,在处理罕见病等低资源场景时优势显著。

4 真实世界部署与实践案例

4.1 欧洲大学医院:全院级LLM助手

部署规模:欧洲某大学医院在Epic EHR系统中集成了基于Qwen3-235B的LLM助手,采用本地化部署确保GDPR合规。1个月试点覆盖9个专科28名医生,64%的参与者每日使用系统,生成482次多轮对话。随后全院推广至1028名用户,5个月内产生14910次对话。

使用模式:最常见的任务依次为信息摘要、信息检索、文书起草,三者合计占交互量的70%以上。使用持续集中在信息获取和文档支持领域,表明系统已稳定融入临床工作流程。

经验启示:试点阶段反馈活跃,但全院推广后自愿反馈显著减少,提示需建立自动化的监控机制替代人工报告;直接嵌入EHR工作流和严格的隐私保护是获得临床接受的前提。

4.2 国内医院:病历生成与质控应用

北京友谊医院探索了LLM在门诊病历生成中的应用,针对医患对话中的不规范表达、打断现象、多人对话等挑战,提出了基于上下文学习和RAG的技术方案。

华东理工大学与多家三甲医院合作开发的IMQC医疗质控平台,实现了数百个质控指标的自动化计算。该方案通过向量匹配实现病历溯源,通过指标转换引擎将模糊规则转化为清晰逻辑,通过执行引擎完成多事实判断,有效解决了大模型在长上下文理解和数值计算方面的局限。

5 挑战与制约因素

5.1 可解释性与信任

LLM的“黑箱”特性是临床采纳的核心障碍。临床医生需要理解AI结论的推导过程,才能在高压环境中做出可信决策。RAG架构通过提供可溯源证据部分缓解了这一问题,但模型推理过程的透明性仍待提升。

系统综述发现,尽管存在35种独特的NLP指标用于评估LLM性能,但尚无指标被证实与金标准人工评估强相关。建立可解释、可验证的评估框架是当前研究的迫切需求。

5.2 幻觉与事实一致性

“幻觉”(hallucination)指模型生成与事实不符的内容,在医疗场景中可能造成严重后果。Asgari等提出的细粒度错误标注框架显示,LLM在临床文本摘要中的幻觉和遗漏率可接近甚至低于人类专家。

缓解幻觉的策略包括:RAG技术引入外部知识约束;结构化输出强制遵循预定义模式;人类监督(human-in-the-loop)对高风险决策进行审核。

5.3 性能评估框架缺失

系统分析显示,196项研究中仅12.2%(24项)定量评估了性能改进策略的有效性。更值得关注的是,少数研究发现少样本提示、微调、多模态数据整合等方法并不必然带来性能提升。这表明缺乏标准化、可推广的评估指南,研究结果难以横向比较和临床转化。

5.4 数据隐私与安全

EHR数据包含高度敏感的患者信息,LLM部署必须遵循严格的隐私保护框架。欧洲医院采用本地化部署确保数据不出域,符合GDPR要求。联邦学习(Federated Learning)支持在不集中传输数据的前提下进行多中心模型训练,是平衡数据共享与隐私保护的重要方向。

5.5 公平性与偏见

LLM在训练数据中习得的偏见可能在临床应用中放大医疗不平等。系统综述发现,仅4项研究评估了性能偏差问题。不同亚组(如种族、性别、社会经济地位)间的性能差异需被系统监测和缓解。此外,数字鸿沟问题值得关注——低收入群体可能因设备接入限制而无法受益于AI医疗创新。

5.6 部署与运维成本

大模型推理的计算资源需求显著高于传统方法。阮彤指出,更大参数的模型(如Qwen2.5-72b、DeepSeek-V3)虽能增强长上下文理解能力,但其计算资源需求显著增加,导致部署成本高、响应速度慢,难以在资源有限的环境中广泛应用。参数高效微调和知识蒸馏是降低部署门槛的有效路径。

6 未来展望

6.1 多模态融合

当前多数系统以文本数据为主,未来将深度融合影像(超声、CT、MRI)、病理切片、基因组学、可穿戴设备信号等多模态数据。赵霞展望,综合临床组学、影像组学和DNA组学的多维度和多模态数据,将实现真正的个性化诊疗。

6.2 标准化评估框架

MedHELM等基准测试已提出涵盖5个类别、22个子类别、121项临床文本任务的评估框架。未来需要建立与临床结局相关联的标准化评估体系,支持模型性能的横向比较和临床转化决策。

6.3 动态自适应系统

风险预测不应是静态的一次性评估。随着患者治疗进程推进,新的数据不断产生,风险状态动态变化。未来系统应具备在线学习能力,实时更新预测模型,并在风险超过阈值时主动预警。

6.4 人机协同的临床整合

LLM应定位为“决策支持工具”而非“医生替代品”。透明验证和人类监督不可或缺——欧洲医院的实践表明,即使经过严格测试,模型仍需在临床工作流中接受持续监控和人工复核。未来需建立“提取-验证-审核-发布”的规范化流程,确保AI输出在进入临床决策前经过必要的质量把控。

7 结论

大语言模型正在重塑电子病历的智能化路径。从临床决策支持到病历生成,从信息抽取到医疗质控,LLM的应用已覆盖EHR处理的全链条。核心技术从上下文学习、RAG到参数高效微调、多智能体协同,推动着从“单任务工具”向“智能伙伴”的范式跃迁。欧洲医院的全院级部署和国内医疗质控平台的实践表明,经过隐私保护、流程整合和持续监控的LLM系统,可在真实临床环境中实现可持续采纳。

然而,可解释性不足、幻觉风险、评估框架缺失、数据隐私与公平性等挑战仍是临床转化的关键制约。未来,多模态融合、标准化评估、动态自适应系统和人机协同的整合路径,将推动LLM驱动的电子病历智能从研究走向真实临床实践,最终实现减轻医生负担、提升医疗质量、改善患者体验的三重目标。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐