Multimodal biomedical AI

虽然人工智能改变了语言翻译、语音识别和自然图像识别等领域，但是医学方面相较于其他领域落后。很大一部分原因是因为复杂性和高维性，数据中包含大量独特的特征和信号，开发和验证适用于不同人群的解决方案面临技术挑战。随着基因测序等成本降低，数据采集、聚合和分析的能力也有所提高。医学方面的诊断、预后评估和决定方案处理来自多种来源和方式的数据，多模态人工智能模型开发融合了跨膜态数据，包括生物传感器、遗传、蛋白质

在在在努力鸭

494人浏览 · 2023-03-29 19:32:40

在在在努力鸭 · 2023-03-29 19:32:40 发布

Multimodal biomedical AI

利用多模态数据的机会

二十年测序取得显著进展，利用新的技术发展可以获得精细生物数据。医学技术在医学各方面都取得了重大进展，提高了我们对生物学途径的理解。但是虽然数据很多，但是整合这些不同类型的数据仍然具有挑战性。已经有很多用于精确健康环境中的多组学数据集成，图神经网络就是一个。由节点和边组成众所周知的数据结构，知道相关数据结构可以提高模型性能，另一种方法是降维。经过不断的探索和发展，最终开发包含多层组学数据的多模态人工智能的能力将使我们达到对个体进行深度表型分析的预期目标。

数字化临床实验

随机临床试验用于调查因果关系，并提供证据支持在临床医学中使用新型诊断，预后和治疗干预。但是耗时费力，因为各方面的差异导致结果不是特别好。有效的将不同传感器的数据和临床数据结合仍然是一个挑战，在未来，这些数据的增加可用性和新的多模态学习技术将提高在数字临床试验中的能力。图神经网络最近被提出克服多个健康传感器数据缺失或者不规则采样的问题。利用不同模式数据的人工智能模型可能有助于识别或生成最优的合成对照。

远程监控：家庭医院

生物传感器、持续监测和分析等方面取得的进展，提高了在个人家中模拟医院环境的可能性，不仅有利于医院也有利于个人。可穿戴传感器发挥着巨大作用，将传感器与ehr结合，查询患者潜在疾病风险的相关信息。多模式和传感器数据的集成为改善远程患者检测提供了一个有希望的机会，由研究已经证明了多模式数据在这些场景中的潜力，利用穿戴设备和环境传感器的多模态数据可能有助于准确检测和分类这些活动中的困难。多模式远程患者检测也可以用于急性疾病的设置。为了安全性要对基于多模态人工智能的远程监控与住院进行随机试验，需要能够预测即将发生的恶化，并有系统干预，但这一点还没有实现。

大流行监测和疫情检测

比如COVID-19显示了检测的要性，一些国家整合移民地图、移动电话使用情况和卫生服务数据的多模式数据，预测疫情的蔓延并确定潜在病例。有研究证明了利用可穿戴设备跟踪静息心率和睡眠分钟来改善美国流感疾病的监测，也有旨在分析来自可穿戴设备的各种数据，以便快速检测流感、冠状病毒和其他快速传播的病毒性疾病的出现。多模态人工智能模型在大流行防备和应对中的其他几个用例已得到测试，取得了不错的结果。

数字双胞胎

目前依靠临床试验作为确定成功干预措施证据，100人，10人成功，90人未证实。数字双胞胎的补充方法利用大量数据来建模和高度预测某种治疗干预措施如何对特定患者诊断，填补知识空白，数字双胞胎是一种很有前途的靶点药物发现工具。在精准肿瘤学和心血管健康领域，有提出利用人工智能工具整合来自多个数据源的开发双胞胎数字，AI已经开发并测试了数字双胞胎模型，利用不同的临床数据集增强阿尔兹海默和多发性硬化症的临床试验。因为人类有机体复杂，医学中准确而有用的数字双胞胎技术的发展取决于收集大量和多样化的多模态数据的能力，开发出能够有效地从所有这些数据模式中学习并进行实时预测的人工智能模型。

虚拟健康助手

虚拟健康助理迄今尚未得到广泛开发，目前最流行的虚拟健康助手应用之一是糖尿病护理，并取得了不错的效果，这些公司的许多已经扩展到其他用例：高血压控制和减肥，虚拟健康教练也有偏头痛、哮喘等常见疾病，但是都是只用在小型观察中研究中。人工智能模型中多个数据源的成功集成将促进广泛关注的个性化虚拟健康助理的开发，虚拟助手可以利用基于基因测序、其他组学层、血液生物标志物和代谢物的持续监测等个性化档案，促进行为改变、回答与健康相关的问题。要充分发挥人工智能和多模态集成到虚拟健康助手的潜力，要面临很多挑战，技术挑战、数据相关挑战、隐私挑战。

多模态数据采集

成功开发多模式数据应用程序的第一个要求收集、管理和协调表现型良好的大型注释数据集。很多国家和机构在建立深入的多模式数据资源，建立的数据资源和数据粒度对数据科学和机器学习非常有用。
在这里插入图片描述
这些数据集中的多模态数据可用性有助于一系列不同任务中实现更好的诊断性能，各种疾病数据的收集为多模式机器学习工作流的开发提供了力量。

技术挑战

实施和建模方面的挑战，健康数据本质上也是多模式的，而且包含很多领域，数据从宏观抽象到微观。
多模式机器学习是机器学习的一个子领域，旨在开发和训练能够利用多种不同类型数据的模式，学习将这些多种模式关联起来提高预测性能。2021年openAI发布了一种称为对比语言图像预训练（CLIP）架构，该架构在数百万图像-文本对上进行训练，没有微调的情况下，与竞争性的、完全受监督的模型性能相匹配。使用ConVIRT，图像编码器和文本编辑器被训练为通过最大化正确配对的图像和文本示例的相似度生成图像和文本表示，称为对比学习，优于自我监督和完全监督。
多模态学习框架的另一个理想特征是能够从不同的模态中学习，而不需要不同的模型架构，理想情况下，多模式模型将包含不同类型的数据，以灵活和稀疏的方式编码包含在这些不同类型的数据中的概念，为跨膜态的类似概念生成对齐的表示，并根据任务的要求提供任何任意类型的输出。
过去的几年，已经从具有强烈模态特定偏差的架构（CNN\RNN）过渡到一种相对新颖的架构Transformer，在各种输入和输出模态和任务中都表现出良好的性能。该模型策略是允许神经网络在处理和最终做出决策时，动态的关注输入不同的部分。虽然自然语言处理中的每个输入标记（即，用于处理的最小单元）对应于特定单词，但其他模态通常使用图像或视频片段片段作为标记，Transformer架构允许我们统一跨模态学习的框架，但可能仍然需要特定于模态的标记化和编码。Meta AI（Meta Platforms）最近的一项研究提出了一个独立于感兴趣的模态的自我监督学习的统一框架，但仍需要模态特定的预处理和训练。自我监督多模式学习的基准使我们能够衡量跨模式方法的进展：例如，自我监督学习的领域不可知基准（DABS）是最近提出的一个基准，包括胸部X光、传感器数据以及自然图像和文本数据。
DeepMind（Alphabet）提出的最新进展，包括Perceiver117和PerceiverIO118，提出了一个跨具有相同骨干架构的模式学习的框架。重要的是，感知器架构的输入是模态不可知的字节阵列，它们通过注意力瓶颈来压缩，以避免依赖于大小的大内存成本，在处理这些输入之后，感知器可以将表示馈送到最终分类层，以获得每个输出类别的概率，而感知器IO可以通过指定感兴趣任务的查询向量将这些表示直接解码为任意输出。如图所示：
在这里插入图片描述
transformer的一个很有前途的方面是能够用未标记的数据学习有意义的表示，鉴于获得高质量标签所需的资源有限且昂贵，这在生物医学人工智能中至关重要。
DeepMind的一项研究表明，管理更高质量的图像-文本数据集可能比生成大型单模态数据集以及算法开发和训练的其他方面更重要。然而，在生物医学人工智能的环境中，这些数据可能并不容易获得。解决这个问题的一个可能的方法是利用一种模式的可用数据来帮助与另一种模式进行学习，这是一种被称为“共同学习”的多模式学习任务。尽管这种方法很有前景，但尚未在生物医学环境中进行广泛测试，需要进一步探索。
另一个重要的建模挑战及多模式健康数据中包含的维度数很高，（维度爆炸）。随着维度（即数据集中包含的变量或特征）的数量增加，携带这些特征的某些特定组合的人数减少（或者对于某些组合，甚至消失），导致“数据集盲点”，即，特征空间中没有任何观测的部分（特征或变量的所有可能组合的集合）。数据集盲点可能会损害模型性能，需要早期考虑，可以用几种策略缓解这个问题，使用最大性能任务收集数据、确保大而多的样本量、利用领域知识指导特征工程和选择、适当的模型训练和全面的模型监测。沿着这些思路，最近的研究表明，通过从大型数据库中检索信息来增强的模型优于在大型数据集上训练的大型模型，有效地利用了可用信息，还提供了额外的好处，如可解释性。
在多模态学习中，一种越来越常用的方法是将来自不同模态的数据组合起来，而不是简单地将几个模态单独输入到一个模型中，以提高预测性能过程，称为“多模态融合”。
不同数据模态的融合可以在过程的不同阶段进行。最简单的方法包括在任何处理（早期融合）之前连接输入模态或特征。方法简单，但是不适用于复杂的数据模式。
一种更复杂的方法是在训练过程中组合和共同学习这些不同模态的表示（联合融合），允许模态特定的预处理，同时仍然捕捉数据模态之间的交互。最后，一种替代方法是为每个模态训练单独的模型，并组合输出概率（后期融合），这是一种简单而稳健的方法，但代价是错过了可以从模态之间的交互中提取的任何信息。
DeepMind（使用通用代理Gato）最近进行的一项研究证明了这种方法的成功，该研究表明，将文本、图像和按钮等创建的各种代币连接起来，可以用来教模型执行几个不同的任务，从为图像加字幕、玩雅达利游戏到用机械臂堆叠积木，最近一项名为Align Before Fuse的研究表明，在融合模态之前，在模态之间对齐表示可能会在下游任务中获得更好的性能。
在这里插入图片描述
谷歌研究公司最近的一项研究建议使用注意力瓶颈进行多模态融合，从而限制跨模态信息流向部队模型。同时使用两种模式的另一个范例是从一种模式“翻译”到另一种模式，
多模式学习以加速的速度得到了改善，但我们预计目前的方法不太可能足以克服上述所有主要挑战。因此，需要进一步创新，以充分启用有效的多模式人工智能模型。

数据挑战

支撑数据健康的多维数据在收集、链接、注释等方面带来了广泛的挑战，尽管科学技术在促进数据收集和表型方面取得了显著进步，但生物医学数据集的这些特征之间不可避免地存在权衡。大样本量（在数十万至数百万的范围内）对于人工智能模型（尤其是多模态人工智能模型）的训练是可取的，但在大量参与者的情况下，快速实现深度表型和良好的纵向随访量表的成本，除非采取自动化的数据收集方法，否则在财务上是不可持续的。
人群、血统、收入水平、教育水平、医疗保健机会等取样在实践中很困难，再者，多模式人工智能所需的一个步骤是将数据集中的可用的所有数据类型进行适当的链接，是另一个挑战。还有，缺失数据的比例很高，有人提出了不同的策略来减少假设。其中包括结转插补，标记插，补值并添加上次测量时的信息，以及更复杂的策略，如使用可学习的衰减项来捕捉缺失数据和时间间隔的存在。
数据产生的时候几种偏见风险很重要，需要很多方法监测和减轻这些偏见。

隐私挑战

多模态人工智能在健康领域的成功及发展需要数据的深度和广度，比单模态人工智能更具隐私挑战。
鉴于隐私挑战，探索出多种技术解决方案，确保安全和隐私。
差分隐私：对数据的系统进行随机择优扰动，最终目标保持数据集的全局分布的同时掩盖个人级别的信息。
联合学习：允许几个个人或卫生系统在不传输原始数据的情况下集体训练模型。
同态加密：允许对加密的输入数据进行数学运算的加密技术，因此提供了在不泄露信息的情况下共享模型权重的可能性
群体学习：基于几个个人或组织在本地数据上训练模型，但不需要可信的中央服务器，因为它用区块链智能合约的使用取代了它。
以上方法可以一起使用。
边缘计算，获得额外的安全层，计算数据更接近数据源，与联邦学习等其他方法结合，避免将敏感数据传输到集中式服务器来提供更多的安全性，减低存储成本，延迟和带宽使用。