基于超声与钼靶报告及影像的大模型诊断性能评估

V搜xhliang0246

522人浏览 · 2026-03-04 15:36:06

V搜xhliang0246 · 2026-03-04 15:36:06 发布

摘要

目的：系统评估大语言模型在超声与钼靶报告及影像分析中的诊断性能，为临床决策提供循证依据。方法：综合多中心研究证据，从纯影像诊断、影像结合报告文本、以及多模态融合三个层面，分析LLM在乳腺癌风险分层、病灶检测与分类、报告错误检测等任务中的表现，并与传统CNN模型及不同年资放射科医师进行对比。结果：①纯影像模式下，GPT-4o在乳腺超声诊断准确率仅58%，显著低于结合文本后的70%（P=0.031），后者与中等年资放射科医师水平相当（70% vs. 71%，P=0.450）；②多模态AI系统BMU-Net在乳腺癌风险分层中准确率达90.1%，接近病理活检水平（92.7%）；③LLM在超声报告错误检测中表现优异，Claude 3.5 Sonnet检测率达52.3%，在少样本学习下PPV提升至91.4%，超越不同年资放射科医师；④当前通用型视觉大模型在放射影像诊断中整体准确率偏低（8.1%-29.2%），且幻觉率高达74.4%。结论：LLM在结合影像与文本的多模态诊断中性能显著提升，接近或超越中等年资放射科医师水平，但在纯影像诊断和可靠性方面仍存在局限。结合BI-RADS特征的结构化列线图模型在特定任务中表现最优。未来研究应聚焦于多模态融合优化、幻觉控制及临床工作流的无缝整合。

关键词：大语言模型；超声；钼靶；多模态诊断；乳腺影像；性能评估

1 引言

1.1 研究背景

乳腺影像诊断是乳腺癌早期筛查和精准治疗的关键环节。亚洲女性乳腺组织密度较高且乳腺癌发病呈低龄化趋势，超声凭借其便捷、无辐射、经济实惠等优势，逐渐成为我国乳腺癌筛查诊断的首选手段。然而，超声在早期筛查中存在一定局限性，尤其是对微小钙化灶的检出不够理想。临床实践中逐渐形成钼靶+超声的组合诊断模式——常规体检可选择，门诊就医时对不明确病灶会联合联查。

除影像学检查外，医生还需综合评估患者主诉、既往病史、触诊等临床指标，这种诊断模式流程繁琐、信息庞杂，诊断准确性也难以保证。放射科医师的判读存在显著的观察者间变异，乳腺超声的假阳性率可达4%-39.8%。在此背景下，人工智能技术，特别是大语言模型（Large Language Models, LLMs）的突破性发展，为乳腺影像诊断的智能化提供了新的技术路径。

1.2 大模型在医学影像中的技术演进

近年来，LLM在医学影像领域经历了从纯文本处理到多模态融合的快速演进。以GPT-4o为代表的先进模型已具备同时处理图像与文本输入的能力，可通过自监督学习实现解剖结构标注、异常识别和临床决策支持。视觉大语言模型（Visual Large Language Models, VLLMs）的出现进一步拓展了多模态诊断的可能性，其将图像理解与文本生成相结合，在放射学诊断中展现出应用潜力。

多模态大模型（Multimodal Large Models, MLMs）如CLIP、Flamingo等，通过对比学习将图像与文本特征在同一向量空间中对齐，确保语义相似的特征在空间上接近。这种跨模态表征能力使模型能够在有限高质量数据或模态缺失的情况下仍保持较强推理能力，在乳腺影像等复杂场景中具有独特优势。

1.3 评估框架与核心问题

本文聚焦于超声与钼靶报告及影像的大模型诊断性能评估，从以下三个核心维度展开：

纯影像诊断性能：LLM仅基于影像输入时的诊断准确率
影像结合报告文本的性能：LLM在获取影像与对应报告文本后的诊断能力
多模态融合策略：专门针对乳腺影像优化的多模态AI系统的表现

通过与专业放射科医师及传统CNN模型的对比，系统评估LLM在临床真实场景中的应用价值与局限性，为临床决策提供循证依据。

2 研究方法

2.1 研究设计

本综述整合了多项多中心研究证据，涵盖以下研究类型：

多中心回顾性研究：中山大学附属第一医院、中日友好医院、哈尔滨医科大学附属第二医院等三家中国三甲医院联合开展的研究，纳入2021年1月至2023年12月期间的乳腺超声检查，共80例乳腺肿块（37例恶性，43例良性）。该研究同时纳入来自中国60家机构的95名不同年资放射科医师（1-3年、3-10年、>10年经验）进行对比分析。

国际多中心研究：伊朗和土耳其三中心纳入1747名经病理证实的乳腺病变女性，提取10项BI-RADS特征和26项形态学特征，构建列线图模型并与ChatGPT变体及放射科医师进行对比。

系统评估研究：德国亚琛工业大学研究团队对7种VLLM（ChatGPT-4o、Gemini 2.0、Claude Sonnet 3.7、Perplexity AI、Google Vision AI、LLaVA-1.6、LLaVA-Med-v1.5）在180例代表性临床影像（X线、CT、MRI各60例）中的诊断性能进行了系统比较。

2.2 评估策略

LLM诊断性能评估通常采用以下两种策略：

图像策略（Image-strategy）：LLM首先描述图像中乳腺肿块的影像特征，然后分配ACR BI-RADS分类并独立生成诊断。

图像结合文本策略（Image-combined-text-strategy）：向LLM同时提供图像和原始报告中的BI-RADS描述符，然后生成诊断。

对于报告错误检测任务，采用零样本（zero-shot）和少样本（few-shot）两种学习范式，评估LLM识别报告中逻辑矛盾、项目遗漏、描述错误、内容重复、拼写错误等类型的能力。

2.3 评价指标

主要评价指标包括：

诊断准确率：良恶性判断与金标准（病理活检或3年以上随访稳定）的一致性
AUC（曲线下面积）：区分良恶性的整体判别能力
PPV（阳性预测值）：正确识别的阳性样本比例
TPR（真阳性率/召回率）：正确识别的阳性样本占实际阳性比例
F1分数：精确率与召回率的调和平均数
错误检测率：报告错误检测任务中正确识别错误的占比
幻觉率：模型生成影像中不存在发现的比例

3 结果

3.1 纯影像诊断性能

3.1.1 乳腺超声诊断

多中心研究显示，GPT-4o在仅基于乳腺超声图像进行诊断时，表现存在明显局限：

诊断准确率：58%（46/80）
一致性：三次重复测试的组内一致性仅为一般水平（Fleiss kappa=0.25，95%CI: 0.07-0.43）
BI-RADS相关征象影响显著：模型性能受图像中BI-RADS特征的清晰度和完整性显著影响

3.1.2 多模态放射影像诊断

对7种VLLM在X线、CT、MRI三种模态180例影像中的系统评估显示：

整体诊断准确率：各模型在8.1%至29.2%之间，Gemini 2.0表现最佳，LLaVA系列表现最弱
不同模态差异：CT准确率最高（20.7%），X线次之（17.3%），MRI最低（13.9%）
幻觉率：总体高达74.4%，各模型在51.7%-82.8%之间（P≤0.004）
结论：当前VLLM在纯影像诊断中可靠性不足，严重依赖文本线索，易产生虚假发现，限制了临床适用性

3.2 影像结合报告文本的诊断性能

3.2.1 GPT-4o结合BI-RADS描述符

当向GPT-4o同时提供乳腺超声图像和原始报告中的BI-RADS描述符后，诊断性能显著提升：

诊断准确率：从58%提升至70%（56/80，P=0.031）
一致性：从一般（kappa=0.25）提升至优秀（0.81，95%CI: 0.67-0.91）
与放射科医师对比：
- GPT-4o结合文本：70%（56/80）
- 中等年资放射科医师（3-10年经验）：71%（57/80），P=0.450（无显著差异）
- 低年资放射科医师（1-3年）：准确率低于70%
- 高年资放射科医师（>10年）：准确率高于70%
与传统CNN对比：定制化CNN模型准确率为74%（59/80），与GPT-4o结合文本的70%无显著差异（P=0.701）
回答质量：结合文本策略生成答案的正确性和完整性更高，错误率更低

3.2.2 临床场景下多模型对比

一项国际多中心研究对比了列线图模型、ChatGPT变体及放射科医师在乳腺病变活检决策和恶性预测中的表现：

融合列线图模型（整合BI-RADS特征与形态计量学特征）：
- 活检推荐准确率：83.0%
- 恶性预测准确率：83.8%
- AUC分别为0.901和0.853，优于形态计量列线图、3名放射科医师及两种ChatGPT模型
BI-RADS列线图：性能显著高于形态计量列线图、放射科医师及ChatGPT模型
结论：整合BI-RADS特征的列线图模型在活检决策和恶性预测中持续优于单独模型、LLM及放射科医师

3.3 多模态AI系统的突破性进展

3.3.1 BMU-Net：乳腺癌风险分层系统

上海科技大学研发的BMU-Net多模态AI系统，专用于乳腺癌风险分层，创新性融合卷积神经网络与Transformer架构：

技术特点：
- 同时处理超声和钼靶影像，整合患者主诉、病史等重要临床指标
- 创新性引入不同癌变风险等级的乳腺疾病树，实现多层级乳腺癌风险预测
- 采用随机掩码训练策略，灵活处理不同模态输入数据，应对临床数据缺失问题
数据规模：基于5025例患者的19360帧乳腺影像开展模型开发和测试
诊断性能：
- 肿瘤良恶性分类与资深影像科医师水平相当
- 组织病理学分级诊断方面超越人类专家表现
- 前瞻性多模态数据验证（187例）：准确率90.1%，接近病理活检的92.7%
- 尤其对BI-RADS 4a类（癌症可能性2%-10%）这一诊断难度较大的不确定区间，模型提供极具价值的判断依据，可将部分4a类降级为3类，帮助患者避免不必要的侵入性活检

3.3.2 MultiXpert：零样本胸片诊断系统

中科院合肥物质科学研究院研发的MultiXpert系统，可在“零样本”条件下对胸片进行智能诊断：

技术特点：多模态双流协同增强，利用LLM和放射科专家知识优化病灶描述，实现图像与语言深度融合
性能表现：
- 在4个单标签公共数据集上平均AUC提升7.5%
- 零样本场景下较主流视觉语言模型平均提升3.9%
- 在十家医院多中心私有数据上，较传统单中心监督学习模型提升13.9%-22.6%
意义：为医学AI从“依赖标注”迈向“自主理解”提供新范式

3.4 超声报告错误检测中的应用

LLM在提升超声报告准确性方面展现出独特价值。一项基于三家医院400份超声报告（含243个错误，覆盖6种错误类型）的研究显示：

3.4.1 零样本学习下的错误检测

Claude 3.5 Sonnet：检测率52.3%（127/243），PPV 76.5%，F1分数62.1%
GPT-4o：检测率41.2%（100/243），PPV 88.5%，F1分数55.9%
GPT-4：检测率26.7%，PPV 84.4%
GPT-3.5：检测率仅4.9%，PPV 17.9%

错误类型分析显示，Claude 3.5 Sonnet在识别矛盾结论（错误类型2）方面表现突出，正确检测51例中的40例。

3.4.2 少样本学习下的性能提升

Claude 3.5 Sonnet：
- 检测率从44.9%提升至50.4%（无统计学显著）
- PPV从75.0%显著提升至91.4%（P<0.05）
- F1分数从56.2%提升至65.0%
- 假阳性率从9.5%显著降至3.0%（P>0.05）
GPT-4o：
- 检测率从37.0%升至40.9%
- PPV从87.0%显著降至70.3%
- 假阳性率从3.5%升至11.0%

3.4.3 与放射科医师对比

在少样本学习下，Claude 3.5 Sonnet的错误检测性能超越资深放射科医师和住院医师。处理速度方面，LLM显著快于放射科医师：

Claude 3.5 Sonnet：13.2秒/报告
GPT-4o：15.0秒/报告
放射科医师（最快）：42.0秒/报告

3.5 多智能体系统的前沿探索

MedXpert-CAD是一个基于LLM的多智能体系统，支持X线呼吸系统疾病和MRI腰椎管狭窄的多任务诊断：

架构特点：包含监督智能体、在线搜索智能体、X线专家智能体、LSS专家智能体
性能表现（基于DeepEval框架和LLM-as-a-judge评估）：
- GPT-4o在单智能体框架下任务完成率：X线90%，MRI 96%
- GPT-4o在多智能体框架下任务完成率80%，工具准确率87%
- 报告生成指标：GPT-4o在METEOR、ROUGE-L、BERTScore-F1等指标上表现优异

尽管该系统未直接应用于乳腺影像，但其架构为超声与钼靶多模态诊断提供了可借鉴的技术范式。

4 讨论

4.1 多模态融合是提升诊断性能的关键

本研究系统梳理的证据一致表明：LLM在结合影像与文本的多模态诊断中性能显著优于纯影像诊断。GPT-4o在乳腺超声诊断中，结合BI-RADS描述符后准确率从58%提升至70%（P=0.031），与中等年资放射科医师水平相当。这一提升的机制可从以下角度理解：

信息互补性：超声图像特征（形态、边界、回声、钙化）与BI-RADS描述符之间存在语义对应关系，但图像特征存在模糊性和解读变异性。文本描述提供了经过放射科医师确认的结构化信息，可帮助LLM聚焦关键特征、校准视觉解读偏差。

跨模态对齐优势：多模态大模型通过对比学习将图像与文本特征在同一向量空间中对齐，使模型能够利用文本信息增强图像理解。BMU-Net的创新性正在于融合CNN的特征提取效率与Transformer的跨模态整合能力，实现了超越资深影像科医师的诊断性能。

4.2 LLM与专业模型、放射科医师的对比定位

与传统CNN模型对比：GPT-4o结合文本（70%）与定制化CNN（74%）在乳腺超声诊断中无显著差异（P=0.701）。这一发现表明，通用型LLM通过多模态提示工程可达到与任务专用CNN相当的水平，而无需额外训练。然而，在多中心数据上的泛化能力方面，传统监督学习模型表现脆弱，而MultiXpert等新型系统通过零样本学习实现了显著的跨中心性能提升（13.9%-22.6%）。

与放射科医师对比：LLM在特定任务中表现突出：

诊断准确率：GPT-4o结合文本与中等年资放射科医师相当（70% vs. 71%）
报告错误检测：Claude 3.5 Sonnet在少样本学习下超越资深放射科医师
处理速度：LLM较放射科医师快2-3倍

然而，对于高年资放射科医师（>10年经验），LLM仍存在差距。BMU-Net在组织病理学分级诊断中超越人类专家，但在常规良恶性分类中仅达“相当”水平。

与整合列线图模型对比：值得关注的是，整合BI-RADS特征的列线图模型在活检推荐和恶性预测中持续优于LLM和放射科医师。这一发现提示：在某些结构化明确的诊断任务中，传统统计模型结合领域知识仍具优势，LLM的“黑箱”特性可能反而成为限制。

4.3 临床部署的关键挑战

4.3.1 可靠性问题

当前通用型VLLM在放射影像诊断中的整体准确率偏低（8.1%-29.2%），且幻觉率高达74.4%。这表明模型在缺乏足够约束的开放场景中极易生成虚假发现。即使在乳腺超声这一相对聚焦的任务中，GPT-4o纯影像诊断准确率仅58%。临床部署前必须建立严格的验证框架。

4.3.2 可解释性与信任

LLM的“黑箱”特性是临床采纳的核心障碍。尽管BMU-Net等模型在BI-RADS 4a类病例中提供了有价值的判断依据，但医生需要理解AI结论的推导过程才能在高压环境中做出可信决策。RAG（检索增强生成）架构通过提供可溯源证据部分缓解了这一问题，但模型推理过程的透明性仍待提升。

4.3.3 幻觉与错误传播

幻觉率研究揭示，LLM在影像分析中可能“编造”不存在的发现。在报告错误检测任务中，Claude 3.5 Sonnet虽表现优异，但假阳性率仍达9.8%。这意味着模型可能将正确报告误判为错误，增加临床医生复核负担。

4.3.4 数据异质性与泛化能力

不同机构间的超声设备型号、扫描协议、图像质量存在差异，影响模型泛化能力。MultiXpert的研究表明，传统单中心监督学习模型在多中心数据上性能下降13.9%-22.6%，而零样本学习框架显著缓解了这一问题。建立包含多中心数据的外部验证是模型临床转化的前提。

4.4 研究局限

本综述存在以下局限：①不同研究采用的病例构成、金标准定义、评估指标存在差异，限制了结果直接可比性；②多数研究聚焦于乳腺超声，钼靶影像的大模型评估证据相对有限；③前瞻性验证研究较少，多数证据来自回顾性设计；④LLM版本迭代迅速（如GPT-4o后续更新），研究结果可能存在时效性偏差。

5 未来展望

5.1 多模态融合优化

当前多模态融合仍以“图像+文本”后期融合为主，未来应探索更深入的跨模态交互机制。BMU-Net采用的随机掩码训练策略和MultiXpert的双流协同增强架构提供了可借鉴的技术路径。此外，整合患者电子健康记录、基因组学、可穿戴设备数据等多维信息，有望实现真正的个性化精准诊断。

5.2 幻觉控制与可解释性

RAG技术与思维链（Chain-of-Thought, CoT）提示策略可有效增强LLM的推理可追溯性和事实一致性。未来研究应进一步探索：①在模型训练阶段引入事实性约束；②在推理阶段集成外部知识库实时验证；③开发面向临床的可解释性可视化工具。

5.3 标准化评估框架

MedHELM等基准测试已提出涵盖多类别临床任务的评估框架。未来需要建立与临床结局相关联的标准化评估体系，支持模型性能的横向比较和临床转化决策。特别应关注不同亚组（如乳腺密度、年龄、种族）间的性能差异，预防算法偏见。

5.4 临床工作流整合

欧洲某大学医院LLM部署的经验表明，直接嵌入EHR工作流、严格的隐私保护、持续监控机制是获得临床接受的前提。未来乳腺影像AI系统应与PACS、RIS等现有系统无缝对接，实现从“技术验证”到“临床落地”的跨越。

6 结论

基于超声与钼靶报告及影像的大模型诊断性能评估表明：

纯影像诊断性能有限：当前通用型VLLM在纯影像诊断中准确率偏低（8.1%-29.2%），幻觉率高（74.4%），尚不具备独立临床部署的条件。
多模态融合显著提升性能：结合影像与报告文本后，GPT-4o在乳腺超声诊断准确率达70%，与中等年资放射科医师相当；BMU-Net多模态系统更达到90.1%准确率，接近病理活检水平。
特定任务表现突出：LLM在超声报告错误检测中表现优异（检测率52.3%），少样本学习下超越资深放射科医师；处理速度较人类快2-3倍。
整合领域知识的模型仍具优势：结合BI-RADS特征的列线图模型在活检决策和恶性预测中持续优于LLM，提示传统统计模型在结构化任务中的价值。
临床转化挑战犹存：可靠性、可解释性、幻觉控制、数据异质性仍是制约LLM临床落地的关键障碍。