简介

本文探讨了AI在医疗团队中的应用,特别是针对上消化道出血患者的GutGPT系统研究。研究发现,AI能提升临床决策效率,但信任仍是主要障碍。医疗团队与AI的协作受专业知识水平和团队动态影响,不同角色人员对AI的期待各异。研究提出临床AI系统设计应平衡可解释性与直观界面、针对不同专业定制方法、考虑团队适应性。随着医院考虑AI整合,技术需经周全设计、广泛测试和实施,优先考虑有效性和信任建立。


文章摘要

随着人工智能(AI)在医疗领域的应用日益深入,医生团队与AI的协作模式引发了广泛关注。本文探讨了AI在临床工作流程中的整合,特别是在治疗上消化道出血(UGIB)案例中的应用。研究表明,虽然AI能提升效率,但信任问题仍是其大规模应用的主要障碍。本文分析了GutGPT系统的设计、临床表现以及医务人员的反馈,旨在为医疗AI系统的设计和应用提供参考,并呼吁在技术进步的同时,重视信任的建立和伦理考量。

正文

在急诊室的喧嚣中,时间往往以分秒计算。一位患者正经历着内部出血,医疗团队需要在短时间内做出决定:出院、观察,还是立即进行干预。此时,资深住院医师正快速地在类似ChatGPT的界面上输入信息,请求AI分析患者的风险因素并推荐下一步骤。整个团队都在等待AI的评估结果,以做出可能挽救生命的决定 。

这并非科幻小说,而是研究人员正在积极准备迎接的现实,因为医院正逐步将AI融入临床工作流程。但一个关键问题仍然存在:当医疗团队与AI协同工作时,他们能做出更好的决策吗?还是AI协作会在人类判断中制造危险的盲点?

Rajashekar及其同事(2024年)研究了这种情景,测试了医疗团队如何与旨在帮助诊断和治疗上消化道出血(UGIB)患者的AI系统交互。他们的研究结果揭示了将AI纳入医疗团队合作的希望和危险 。

GutGPT:一个用于UGIB的专业AI系统

为了测试LLM(大型语言模型)如何与临床医生协同工作,研究人员设计了GutGPT,一个专门用于上消化道出血案例的AI系统 。这个临床决策支持系统使用了基于患者数据的机器学习,并增强了专门针对胃肠病学指南训练的LLM 。GutGPT由两个主要组件构成:

  • 一个类似ChatGPT的聊天机器人界面,可以直接向LLM提问
  • 一个交互式仪表板,能够显示当前的患者和电子健康记录(EHR)数据,并允许参与者操纵变量进行比较和预测

该系统在验证测试中表现出色,并且将LLM的训练限制在特定的医疗指南中,旨在减少幻觉,尽管这尚未得到独立验证 。

模拟临床环境下的GutGPT测试

为了测试GutGPT,研究人员设计了一个医疗模拟任务,该任务复制了真实世界中高风险的临床环境 。参与者与一个由胃肠病学专家配音的全身模拟人(患者)互动。模拟患者表现出上消化道出血(UGIB)的症状,这是一种通常需要在不同专业知识的多个医疗提供者之间进行协调的医疗状况 。研究考察了两种情景:

  • 风险评估:参与者必须确定患者是高风险还是低风险
  • 内容评估:参与者必须为患者制定管理计划

共有31名参与者被招募,他们是急诊或内科住院医师和医学生。这种抽样方法旨在复制经常与UGIB交互的各种团队和不同经验水平,并检查医疗专业知识如何影响GutGPT的交互 。参与者被随机分配到由两到四名成员组成的提供者团队,并被置于以下两种条件之一:

  • GutGPT:参与者可以使用聊天机器人界面和交互式仪表板
  • 仪表板:参与者只能使用交互式仪表板

研究人员使用调查、访谈和来自GutGPT交互的定量数据,研究了LLM聊天机器人如何影响医疗模拟期间的信任度、可用性和人机交互 。

主要发现

调查反馈显示,用户体验积极,但访谈揭示了重大的复杂性 。

对ChatGPT的熟悉有助于参与者快速适应GutGPT的界面。然而,许多人难以确定要问什么问题,并担心AI的可靠性 。交互式仪表板收到了不同的反应:一些人认为图表过于复杂,无法在时间紧迫的情况下快速解读,而另一些人则更喜欢其数值数据而不是文本回复 。有趣的是,参与者注意到需要“激活能量”来使用LLM,这需要将注意力从患者身上转移开,创建一个问题、阅读一段文本并进行解释。这造成了一种工作流程摩擦感,而更简单的仪表板避免了这种摩擦 。

信任:采用LLM的最大障碍

虽然随着系统曝光,信任度有所提高,但它仍然是采用LLM聊天机器人的最大障碍 。

信任问题主要源于对数据来源的不确定性以及对AI在高风险医疗决策中的可靠性的担忧 。道德和法律影响也同样损害了信任,阻止参与者在工作流程中使用聊天机器人 。此外,一些临床医生质疑LLM的益处,因为它无法“解读情况”并获得关于患者的情感直觉 。重要的是,参与者希望知道AI从哪里获取信息,而缺乏来源是信任的主要障碍 。

团队动态和专业知识水平的影响

团队动态和专业知识水平影响了人机交互的某些方面 。

无论经验水平如何,团队在每个情景中平均会提出三个提示,在内容(即治疗)情景中的提示更长(平均15个字),而风险评估情景中的提示更短(平均11个字) 。GutGPT访问医疗指南被证明特别有帮助,在内容情景中提供了定制的指示 。团队动态,如将参与者分配到初级(数据收集)或高级(决策)角色,意味着临床医生根据其任务以不同的方式体验LLM 。经验水平也显著影响了感知:住院医师使用GutGPT来确认他们的临床直觉,将其视为协作伙伴,而医学生则经常将其作为专家顾问,有些人更喜欢它的建议而不是自己的判断 。

未来展望

研究人员确定了使用LLM设计临床系统的三个原则:

  1. 系统必须平衡算法的可解释性与直观的界面。需要考虑临床医生的需求和担忧。例如,文本输出应使用项目符号而不是密集的段落,并且与电子健康记录的集成对于工作流程的采用至关重要 。
  2. 不同的医学专业和经验水平需要量身定制的方法。正如对团队动态的分析所揭示的那样,参与者根据其角色形成了对GutGPT的不同看法。未来,临床医生的反馈对于迭代改进这些系统至关重要 。
  3. 即使在精心设计的医疗环境中,团队构成和动态也会发生变化和变化,因此会影响人机交互。AI系统设计应优先考虑适应性,以及对临床医生的培训,以了解这项技术以及如何在各种情况下最好地利用它 。

Rajashekar及其同事(2024年)研究了团队临床工作流程中的LLM,展示了潜在的益处、挑战和设计原则 。许多问题仍然没有得到解答。这些系统在真实世界的压力下表现如何?当AI的建议与临床判断相冲突时会发生什么?重要的是,患者对AI参与其护理的感受如何?

随着全球医院考虑AI整合,这项研究表明该技术具有前景,但需要仔细的设计、广泛的测试和周全的实施,优先考虑有效性和信任 。

关于作者

Michael Hogan, Ph.D 。

Michael Hogan博士是爱尔兰国立戈尔韦大学的心理学讲师 。

延伸阅读

  • AI 心理学 - 4分钟阅读,了解AI在医疗团队中的作用。
  • AI 与智能 - 了解如何让人工智能成为真正智能的队友。
  • 人工智能对思维的影响 - 人工智能对学术思维、写作和学习的影响。
  • 人工智能与团队合作 - 团队合作在生成式人工智能参与时仍然重要。

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

更多推荐