摘要

我们推出了首个开源的虚拟临床环境,用于训练大型语言模型(LLMs)作为采用强化学习(RL)的诊断代理。DiagGym通过生成基于不断变化患者状态的检查结果,模拟真实的、多回合的诊断工作流程,实现安全、闭环的训练,无需承担现实世界的风险。

在DiagGym中,我们训练了DiagAgent——一系列经过RL优化的诊断代理(7B、8B、14B)——以主动管理诊断轨迹:选择最具信息量的检查,决定何时停止,并承诺给出准确的最终诊断。所有模型均在Hugging Face上提供,以供复现和扩展。

首款开源诊断强化学习训练虚拟环境——DiagGym:一个高保真的电子病历世界模型,用于模拟检查结果,以便对诊断代理进行安全、互动式的训练和评估。在DiagGym中训练的强化学习训练诊断代理——DiagAgent-7B、DiagAgent-8B和DiagAgent-14B,超越了12个最先进的LLMs和提示工程代理,无论是在单回合还是端到端的诊断任务中。

闭环学习的优势——在真实模拟中进行强化学习,诊断准确率最高可达15.12%,检查建议的F1值最高可比最佳基线(包括DeepSeek-v3、GPT-OSS-120B和Claude-4)高出23.09%。

核心速览

研究背景

  1. 1.

    研究问题:这篇文章要解决的问题是如何训练大型语言模型(LLMs)作为诊断代理,使其能够在真实的医疗环境中进行诊断。具体来说,研究如何通过强化学习(RL)优化诊断代理,使其能够在模拟的多轮诊断工作流程中表现出色。

  2. 2.

    研究难点:该问题的研究难点包括:如何在没有真实世界风险的情况下进行安全、闭环的训练;如何生成逼真的检查结果以模拟真实的医疗环境;如何在不确定信息下进行有效的诊断决策。

  3. 3.

    相关工作:该问题的研究相关工作包括现有的单轮诊断任务和端到端诊断任务的研究,但这些工作通常缺乏真实的模拟环境和强化学习的优化。

研究方法

这篇论文提出了DiagGym,第一个用于训练大型语言模型作为诊断代理的开源虚拟临床环境。具体来说,

  1. 1.

    DiagGym EHR世界模型:DiagGym通过生成基于患者状态的检查结果来模拟真实的、多轮的诊断工作流程。该模型是一个高保真的电子健康记录(EHR)世界模型,能够在不进行实际医疗操作的情况下进行安全的交互式训练和评估。

  2. 2.

    DiagAgent:DiagAgent是一系列通过强化学习(RL)优化的诊断代理(7B、8B、14B),它们能够主动管理诊断轨迹,包括选择最具信息量的检查、决定何时停止以及做出准确的最终诊断。

  3. 3.

    强化学习优化:DiagAgent在DiagGym环境中通过端到端的多轮强化学习(GRPO)进行优化。在每个回合中,代理从初始询问开始,通过与DiagGym交互推荐检查并接收模拟结果,然后决定是否做出最终诊断。奖励函数结合了三个部分:诊断准确性、检查推荐F1值和回合惩罚。

实验设计

  1. 1.

    数据收集:DiagGym训练数据集是从MIMIC-IV EHR数据集中构建的。每个患者记录被重新组织为患者档案和时间有序的检查集。数据集包含118,478个患者的EHR,覆盖4,897种不同的疾病。平均每个案例包含29次检查(26次实验室检查、2次微生物学检查和1次放射学检查)。

  2. 2.

    样本选择:训练数据集通过过滤(去除没有体检或已有预先诊断的案例)、标准化检查名称、填补缺失标签以及限制在入院前一日内进行的检查来确保诊断的相关性。

  3. 3.

    参数配置:DiagAgent的模型参数包括7B、8B和14B三种规模,使用标准的自回归损失进行训练。强化学习中,奖励函数的组合包括诊断准确性、检查推荐F1值和回合惩罚。

结果与分析

  1. 1.

    单轮评估:在单轮评估中,DiagAgent(7B、8B、14B)在诊断准确性和诊断建议F1值方面均优于现有的12种最先进的LLMs和提示工程代理。具体来说,DiagAgent-14B在诊断准确性上达到了86.73%,比最佳基线高出15.12%。

  • 2.

    端到端评估:在端到端评估中,DiagAgent(7B、8B、14B)在平均回合数、精确度、召回率、F1值和准确性方面也表现出色。DiagAgent-14B的平均回合数为6.77,F1值为52.74%,准确性为61.63%。

总体结论

这篇论文提出了DiagGym,第一个用于训练大型语言模型作为诊断代理的开源虚拟临床环境。通过强化学习优化,DiagAgent在单轮和端到端诊断任务中均表现出色,显著提高了诊断准确性和检查推荐的质量。该研究为未来的医疗AI应用提供了一个安全、高效的训练平台。

论文评价

优点与创新

  1. 1.

    首创性:DiagGym是第一个开源的虚拟临床环境,用于训练大型语言模型(LLMs)作为诊断代理,采用强化学习(RL)。

  2. 2.

    高保真模拟:DiagGym模拟了真实的、多回合的诊断工作流程,通过生成基于患者状态演变的检查结果,实现了安全、闭环的训练,无需现实世界的风险。

  3. 3.

    多种模型:训练了三种不同大小的RL优化诊断代理(7B、8B、14B),并在单回合和端到端诊断任务中均超越了12种最先进的LLMs和提示工程代理。

  4. 4.

    闭环学习优势:在现实的模拟中,RL训练比最佳基线(包括DeepSeek-v3、GPT-OSS-120B和Claude-4)提高了高达15.12%的诊断准确率和23.09%的检查推荐F1。

  5. 5.

    多回合诊断能力:DiagAgent不仅提供一次性答案,还能在多个对话回合中推荐相关检查并自适应地更新其诊断,仅在有足够信息时才做出最终决定。

  6. 6.

    开放性和可扩展性:所有模型均在Hugging Face上提供,便于复现和扩展。

  7. 7.

    详细的评估:在单回合和端到端两种补充设置中对DiagAgent进行了评估,更好地反映了真实世界临床工作流程。

不足与反思

  1. 1.

    数据集限制:尽管使用了MIMIC-IV EHR数据集构建训练数据,但数据集可能仍然存在一些局限性,可能影响模型的泛化能力。

  2. 2.

    模型规模:目前仅训练了7B、8B和14B三种规模的模型,未来可以考虑更大规模的模型以进一步提高性能。

  3. 3.

    奖励函数:当前的奖励函数结合了诊断准确性、检查推荐F1和回合惩罚,但可能需要进一步调整和优化以更好地反映实际的临床诊断过程。

  4. 4.

    长文本处理:尽管将所有检查结果(文本或数值)视为自由文本进行训练,但在处理长文本时仍可能存在一定的挑战。

  5. 5.

    下一步工作:论文提到将很快发布详细的研究论文和训练脚本,以便进一步探讨和改进DiagGym和DiagAgent的方法。

关键问题及回答

问题1:DiagGym是如何模拟真实的、多轮的诊断工作流程的?

DiagGym通过生成基于患者状态的检查结果来模拟真实的、多轮的诊断工作流程。具体来说,DiagGym是一个高保真的电子健康记录(EHR)世界模型,它能够在不进行实际医疗操作的情况下进行安全的交互式训练和评估。在每个回合中,诊断代理(DiagAgent)会从初始询问开始,通过与DiagGym交互推荐检查并接收模拟结果,然后决定是否做出最终诊断。通过这种方式,DiagGym能够模拟出真实的诊断流程,同时保证训练过程的安全性。

问题2:DiagAgent是如何通过强化学习(RL)进行优化的?

DiagAgent通过端到端的多轮强化学习(RL)进行优化。具体来说,DiagAgent在DiagGym环境中进行训练,每个回合中,代理从初始询问开始,通过与DiagGym交互推荐检查并接收模拟结果,然后决定是否做出最终诊断。奖励函数结合了三个部分:诊断准确性、检查推荐F1值和回合惩罚。诊断准确性是指预测诊断与真实诊断匹配的程度,检查推荐F1值是指推荐检查与实际检查结果的相似度,回合惩罚则是为了防止代理进行过多的交互回合。通过这种强化学习机制,DiagAgent能够逐步优化其诊断策略,提高诊断的准确性和效率。

问题3:DiagAgent在单轮评估和端到端评估中的表现如何?

在单轮评估中,DiagAgent(7B、8B、14B)在诊断准确性和诊断建议F1值方面均优于现有的12种最先进的LLMs和提示工程代理。具体来说,DiagAgent-14B在诊断准确性上达到了86.73%,比最佳基线高出15.12%。在端到端评估中,DiagAgent(7B、8B、14B)在平均回合数、精确度、召回率、F1值和准确性方面也表现出色。DiagAgent-14B的平均回合数为6.77,F1值为52.74%,准确性为61.63%。这些结果表明,通过强化学习优化,DiagAgent在单轮和端到端诊断任务中均表现出色,显著提高了诊断准确性和检查推荐的质量。

 之前商界有位名人说过:“站在风口,猪都能吹上天”。这几年,AI大模型领域百家争鸣,百舸争流,明显是这个时代下一个风口!

那如何学习大模型&AI产品经理?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方链接👇👇

大模型重磅福利:入门进阶全套104G学习资源包免费分享!


在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

​​在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐