摘要

本文深入探讨了大语言模型(LLMs)在医疗知识图谱(KGs)补全中的应用与局限,尤其是在疾病与治疗关系推断方面的表现。通过系统评估LLMs生成的治疗映射与现有临床知识的对齐程度,研究揭示了模型在覆盖率、一致性和稳定性方面的不足,同时强调了混合方法和严格验证的重要性 。


引言:医疗知识图谱与大模型的交汇点

在医疗信息化时代,医疗知识图谱(Medical Knowledge Graphs, KGs)已成为不可或缺的工具,用于支持临床决策、生物医学研究和个性化治疗方案设计。它们通过整合疾病、治疗、药物和基因等实体,为复杂的医疗信息提供结构化表示。然而,由于源本体(ontologies)的结构限制和知识空白,医疗KGs常常面临不完整的问题,尤其是在疾病与治疗映射(treatment mapping)领域,现有的编码系统如ICD、MONDO和ATC常常缺乏足够的粒度和一致性,导致知识库碎片化 。

近年来,随着大语言模型(LLMs)如GPT、Perplexity、Gemini和Claude的快速发展,自动化知识推断为医疗KGs的补全带来了新机遇。LLMs能够从临床文献、药物标签和公开指南等非结构化数据中提取信息,生成疾病与治疗之间的新关联。然而,这一技术的应用也伴随着显著风险,包括事实错误、幻觉输出(hallucination)以及模型间和模型内的不稳定性 。

本文将系统分析LLMs在医疗知识推断中的潜力与局限,基于覆盖率、对齐度和鲁棒性三个维度进行评估,并提出谨慎整合与透明验证的重要性,旨在为专业人士、科研院所和投资人提供参考 。


医疗知识图谱的不完整性:一个亟待解决的问题

医疗KGs通过整合不同医疗本体和编码系统中的实体,支持语义推理和跨系统互操作性。它们的结构化特性使其特别适用于药物再利用、不良事件预测和个性化治疗规划等下游任务。然而,由于源本体的知识空白和结构限制,医疗KGs往往不完整,尤其是在疾病与治疗的映射上,许多关联稀疏、过时或完全缺失。例如,ICD和ATC编码系统常常无法全面覆盖疾病与潜在治疗之间的关系,导致知识库的有效性受限,进而影响临床决策的质量 。

这种不完整性对医疗技术的准确性和全面性构成了挑战。因此,弥合这些缺失的关联对于提升基于知识的医疗技术至关重要。传统方法如TransE、DistMult等通过将实体和关系投影到连续向量空间来预测缺失链接,而图神经网络(GNN)如R-GCN和CompGCN则利用图结构和多关系模式进行补全。但这些方法在处理医疗领域的复杂性和动态性时仍有局限 。


大语言模型:医疗知识推断的新希望?

LLMs展现了在生物医学文本理解、知识合成和自然语言推理方面的强大能力,使其成为识别结构化本体中未明确捕获关系的潜在工具。在治疗映射方面,LLMs可以利用临床文献、药物标签和指南生成疾病与药物之间的新关联,为低资源或快速发展的医疗领域提供支持 。

然而,LLMs生成的知识引入了显著风险。与经过临床证据和专家验证的 curated ontologies 不同,LLMs可能产生看似合理但实际上错误或临床无关的输出(即幻觉)。此外,模型可能反映预训练数据的偏差,误解模糊术语,或与既定医疗指南相矛盾。不同模型之间的输出不一致,甚至同一模型在不同运行或时间段内的输出也可能不稳定。在临床应用中,错误信息的代价极高,可能危及患者安全并损害对AI驱动决策支持系统的信任 。

因此,在将LLM生成的知识整合到高风险医疗基础设施之前,严格评估至关重要。然而,由于临床专家的手动审查耗时且成本高,大规模验证往往不可行。为此,研究团队采用了一种可扩展的、基于知识的评估策略,将LLM生成的治疗关系与 curated ontology-based KGs 进行比较,评估其可靠性 。


研究方法:系统评估LLMs的医疗知识推断能力

本研究通过以下三个主要步骤评估LLMs在生成临床相关治疗关系方面的能力:

  1. 构建参考知识图谱

    :整合现有本体和治疗关系数据集,形成一个专注于疾病-治疗关系的参考KG,作为评估LLM响应的标准 。

  2. 多模型多提示查询

    :使用多种提示(prompt)格式对多个LLM(如GPT-4o、o3 mini、Perplexity-R1和Perplexity-Sonar)进行查询,生成疾病-治疗关联 。

  3. 对齐评估

    :比较LLM生成的输出与 curated KG 关系,评估事实准确性和覆盖率,使用成功率(success rate)、召回率(recall)、Jaccard相似度和Sørensen–Dice系数等指标 。

研究团队特别关注覆盖率(coverage)、对齐度(alignment)和鲁棒性(robustness)三个维度,以全面评估LLM输出与临床知识的一致性以及在不同交互下的稳定性 。


结果分析:LLMs的表现与局限

覆盖率表现

研究通过API调用测试了GPT-4o、o3 mini、Perplexity-R1和Perplexity-Sonar等模型在三种提示(A、B、C)下的表现。结果显示,提示C在所有模型中均取得了最高的成功率,例如Perplexity Sonar和GPT-4o在提示C下的成功率高达0.9667,其他模型也超过0.90,表明提示C在引发部分正确的临床内容方面特别有效,尤其是在结构化输出格式的要求下。而提示A和B的表现相对较差,GPT-4o在提示A和B下的成功率仅为0.7667和0.6333,显示出较大的变异性 。

Figure 1 - Coverage Performance of LLMs against KG Reference List for Three Prompts,用于展示成功率和召回率在不同提示下的表现

对齐度与鲁棒性

研究还采用Jaccard相似度和Sørensen–Dice系数等指标评估LLM输出与参考KG的对齐度,并分析模型内部响应的鲁棒性。结果表明,尽管LLMs能够恢复一部分已知治疗关系,但模型在覆盖率和精确度之间存在权衡,常常出现过度生成(overgeneration)和幻觉输出。此外,模型在不同提示格式下的表现差异显著,显示出对输入敏感性和内在不稳定性 。

关键发现

研究发现,虽然LLMs在生成潜在有用的治疗建议方面展现了潜力,但其输出与既定临床指南存在不一致,可能对患者安全构成风险。这强调了在临床应用中对LLM输出进行严格验证的必要性 。


结论与展望:谨慎整合与混合方法的重要性

本研究通过评估LLMs生成的治疗关系与 curated KGs 的对齐程度,揭示了其在医疗知识增广中的潜力与局限。尽管LLMs能够恢复大量已知治疗方法,但其性能因模型和提示格式而异,且存在过度生成和幻觉问题。这表明在高风险领域如医学中,事实准确性至关重要,单纯依赖LLMs可能带来风险 。

未来研究方向

  1. 检索增强生成(RAG)

    :探索RAG作为一种更可控、更可解释的替代方案,通过聚焦于本体、药物数据库和临床指南等结构化知识源,提升事实一致性,减少幻觉输出 。

  2. 自动置信度评分与自验证

    :开发技术以自动评估LLM响应的可信度,实现对生成内容的选择性整合 。

  3. 扩展任务特定数据集

    :构建超越治疗映射的评估数据集,覆盖禁忌症、联合用药管理和护理路径优化等更广泛的临床知识推理任务 。

最终,本研究强调了混合方法的必要性,将生成能力与结构化验证和领域感知推理相结合,以确保LLMs在医疗知识基础设施中的安全和透明应用 。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

更多推荐