使用深度学习的医学图像分割:一项调查

论文地址

本综述有两个独创之处,首先,与传统的调查方法直接将医学图像分割的文献划分为多个组,并对每个组详细介绍文献的方法相比,我们将目前流行的文献按照从粗到细的多层次结构进行分类。其次,本文重点研究了监督学习和弱监督学习方法,但未包括无监督方法,这种方法目前在医学图像领域并不流行。对于监督学习方法,我们从骨干网络的选择、网络块的设计和损失函数的改进三个方面对文献进行了分析。对于弱监督学习方法,我们分别根据数据增强,迁移学习和交互式分割研究文献。与已有的调查相比,本次调查的文献分类与以往有很大的不同,更便于读者了解相关的理论基础,并引导读者思考基于深度学习方法的医学图像分割的适当改进。

1. Introduction

医学图像分割的目的是使图像中解剖或病理结构的变化更加清晰;它在计算机辅助诊断和智能医疗中发挥着至关重要的作用,极大地提高了诊断的效率和准确性。目前流行的医学图像分割任务包括肝脏和肝脏肿瘤分割,脑和脑肿瘤分割,视盘分割,细胞分割,肺分割和肺结节等。

为了帮助临床医生做出准确的诊断,有必要对医学图像中的一些关键目标进行分割,并从分割区域中提取特征。医学图像分割的早期方法通常依赖于边缘检测、模板匹配技术、统计形状模型、活动轮廓和传统机器学习技术。这些方法在一定程度上取得了不错的效果,但由于特征表示的困难,图像分割仍然是计算机视觉领域中最具挑战性的课题之一。特别是医学图像的特征提取比普通RGB图像更难,因为前者往往存在模糊、噪声、对比度低等问题。由于深度学习技术的快速发展,医学图像分割将不再需要手工制作的特征,卷积神经网络(CNN)成功实现了图像的层次特征表示,从而成为图像处理和计算机视觉领域最热门的研究课题。由于用于特征学习的CNN对图像噪声、模糊、对比度等不敏感,对医学图像提供了很好的分割结果。

需要一提的是,一般的图像分割任务主要分为了语义分割和实例分割。但在医学图像分割中,由于每个器官或组织都有很大的不同,所以医学图像的实例分割并无太大意义,医学图像分割通常都指语义分割。

以往的医学图像分割综述文献大多按时间顺序总结了医学图像分割的发展,从而忽略了医学图像分割的深度学习技术分支。另一个问题是,这些调查只介绍了相关的技术发展,而没有关注医学图像分割的任务特征,如少镜头学习、不平衡学习等,这限制了基于任务驱动的医学图像分割的改进。

本综述的主要内容遵循下图所示部分:
在这里插入图片描述

这篇综述的一些关键贡献可以总结如下:

  • 总结了深度学习用于医学图像从粗到细分割的技术分支,如图1所示,分割方法主要包括监督学习和弱监督学习两个方面。讨论了神经结构搜索(NAS)、图卷积网络(GCN)和多模态数据融合在医学图像分析中的最新应用。
  • 在监督学习方法方面,我们从骨干网的选择、网络块的设计和损失函数的改进三个方面对文献进行了分析。该分类方法可以帮助后续研究人员更深入地理解医学图像分割网络的动机和改进策略。对于弱监督学习,我们还从数据增强、迁移学习和交互式分割三个方面综述了处理少镜头数据或类不平衡数据的文献。
  • 除了全面回顾深度学习在医学图像分割中的发展和应用,我们还收集了目前常见的公共医学图像分割数据集。最后,讨论了该领域未来的研究方向和发展趋势。

2. Supervised Learning

对于医学图像分割任务,监督学习是最流行的方法,因为这些任务通常要求较高的精度。在本节中,我们将重点回顾神经网络体系结构的改进。这些改进主要包括网络骨干、网络块和损失功能的设计。图2展示了基于监督学习的网络架构改进的概况。
在这里插入图片描述

2.1 Backbone Network

图像语义分割的目的是对图像进行像素分类。通常采用编码器-解码器结构的全卷积网络方法。编码器通常用于提取图像特征,而解码器通常用于将提取的特征恢复到原始图像大小并输出最终分割结果,典型的有FCN,U-Net,Deeplab等。

2.1.1 U-Net

与普通的图像分割不同,医学图像通常含有噪声且边界模糊。因此,仅仅依靠图像的底层特征很难对医学图像中的目标进行检测和识别。同时,由于缺乏图像细节信息,仅靠图像语义特征无法获得准确的边界。而U-Net通过跳跃连接,将低分辨率和高分辨率的特征图结合起来,有效地融合了低分辨率和高分辨率的图像特征,是医学图像分割任务的完美解决方案。目前,U-Net已经成为大多数医学图像分割任务的基准,并激发了许多有意义的改进。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210331174017405.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4OTMyMDcz,size_16,color_FFFFFF,t_70

2.1.2 3D-Net

在实践中,由于CT、MRI图像等大部分医学数据都是以三维数据的形式存在的,使用三维卷积核可以更好地挖掘数据的高维空间相关性。由于计算资源的限制,3D U-Net仅包含3次下采样,不能有效提取深层图像特征,导致医学图像分割精度有限。与3D-UNet相比,V-Net利用残差连接设计更深层次的网络(4次下采样),从而获得更高的性能。
在这里插入图片描述

2.1.3 Recurrent Neural Network(RNN)

在医学图像分割中,RNN被用对图像序列的时间依赖性进行建模。Alom等人提出了一种结合ResUNet和RNN的医学图像分割方法。该方法实现了递归残差卷积层的特征积累,改善了图像分割任务中的特征表示。图5显示了回归残差卷积单元。
在这里插入图片描述
Gao等人结合LSTM和CNN对不同脑MRI切片之间的时间关系进行建模,以提高分割精度。Bai等结合FCN和RNN挖掘主动脉序列分割的时空信息。显然,RNN可以通过考虑上下文信息关系来捕获图像的局部和全局空间特征。

2.1.4 Skip Connection

虽然跳跃连接可以融合低分辨率和高分辨率信息,从而改善特征表示,但存在低分辨率和高分辨率特征之间语义鸿沟较大的问题,导致特征映射模糊。例如,为了改进跳跃连接,Ibtehaz等人提出了包含残差路径(ResPath)的MultiResUNet,它使编码器特征在与解码器中相应特征融合之前执行一些额外的卷积操作。

2.1.5 Cascade of 2D and 3D

对于图像分割任务,级联模型通常训练两个或多个模型来提高分割精度。该方法在医学图像分割中尤其流行。级联模型大致可以分为三种类型:粗-细分割、检测分割和混合分割。

第一类是粗细分割框架,使用两个2D网络的级联进行分割,其中第一个网络进行粗分割,然后使用另一个网络模型在之前的粗分割结果的基础上实现细分割。Christ等人提出了一种用于肝脏和肝肿瘤分割的级联网络。该网络首先使用一个FCN对肝脏进行分割,然后将之前的肝脏分割结果作为第二个FCN的输入进行肝脏肿瘤分割。Yuan等人首先训练了一个简单的卷积-反卷积神经网络(CDNN)模型(19层FCN),对一个CT体积的整个图像提供快速但粗糙的肝脏分割,然后将另一个CDNN(29层FCN)应用于肝脏区域,用于细粒度肝脏分割。这种级联网络利用第一个网络产生的后验概率比普通级联网络能有效地提取更丰富的多尺度上下文信息。

然而,医学图像大多是三维体数据,而二维卷积神经网络无法学习三维的时间信息,三维卷积神经网络往往计算成本高,GPU内存消耗严重。因此,提出了一些伪三维分割方法。Vu等将相邻切片的叠加作为输入用于中心切片预测,然后将得到的2D特征图输入到标准2D网络中进行模型训练。这些伪三维方法虽然能够从三维数据中分割出目标,但由于只利用了局部时间信息而导致精度提升有限。相比于伪3D网络,2D和3D级联网络要更好 。Li等人提出了一种混合密集连接U-Net(H-DenseUNet)用于肝脏和肝脏肿瘤的分割。该方法首先利用简单的ResNet获得粗略的肝脏分割结果,利用二维DenseUNet有效提取二维图像特征,然后利用三维DenseUNet提取三维图像特征,最后设计一种混合特征融合层,对二维和三维特征进行联合优化。虽然H-DenseUNet相对于整个3D网络来说降低了模型的复杂性,但是模型仍是复杂的,而且在3D卷积中仍然存在大量的参数。Zhang等人提出一种和H-DenseUNet结构相似的轻量级混合卷积网络(LW-HCN),但它使用了3D深度可分离卷积,因此所需的参数和计算成本要更少 。

传统UNet在检测带有模糊噪声边界的较小解剖结构时通常表现不佳。为了解决这一问题 。Valanarasu等人提出了一种完整的级联网络KiU-Net来进行脑夹层分割。作者设计了一种全新的过完备结构Ki-Net,其中中间层的空间大小大于输入数据的空间大小,这是通过在编码器的每一转换层之后加上上采样层来实现的。因此,提出的Ki-Net比U-Net具有更强的边缘捕获能力,并与香草U-Net级联,提高整体分割精度。利用Ki-Net的低层精细边缘特征图和U-Net的高层形状特征图,不仅提高了分割精度,而且对小解剖标志和模糊的噪声边界实现了快速收敛。

2.1.6 Others

生成对抗网络(GAN)在诸多领域有着非常不错的应用,研究者们自然而然地将这一技术应用在图像分割中。由于医学图像通常对比度较低,不同组织和病变之间的界限模糊,且带标签的数据稀缺。基于U-Net的图像分割方法利用像素损失来学习像素之间的局部和全局关系是不够的,使用生成对抗网络来改进图像分割是一种流行的方法。生成网络学习识别肿瘤区域并生成分割结果,对抗网络学习从生成网络中区分ground-truth和分割结果,从而强制生成网络获得尽可能真实的标签。在训练样本数量有限的情况下,cGAN能够很好地工作。Conze等利用级联的预先训练的卷积编码器-解码器作为cGAN的生成器用于腹部多器官分割,并将对抗网络作为判别器强制模型创建真实的器官描绘。

此外,由于成像技术的限制,医学图像不可避免地会在一定程度上被破坏从而依赖于手工修复,因此关于器官形状和位置的先验知识的结合对于改善医学图像分割效果可能是至关重要的。Oktay等提出了一种新的通用方法,将形状和标签结构的先验知识结合到解剖约束神经网络(ACNN)中,用于医学图像分析任务。通过这种方式,神经网络的训练过程可以被约束和引导,以做出更解剖和有意义的预测,特别是在输入的图像数据信息不够充分或不够一致的情况下(例如,缺少对象边界)。研究表明,由于在神经网络的训练过程中采用了先验知识约束,改进后的模型可以提供更高的分割精度,并且具有更强的鲁棒性。

2.2 Network Function Block

2.2.1 Dense Connection

密集连接常被用于构造一种特殊的卷积神经网络。对于密集连接网络,每一层的输入来自前面所有层的输出。Guan等提出了一种改进的U-Net,用密集连接的形式来代替U-Net的每个子块,如图6所示。虽然密集连接有助于获得更丰富的图像特征,但往往在一定程度上降低了特征表示的鲁棒性,增加了参数的数量。
在这里插入图片描述
Zhou等将所有的U-Net层(从一层到四层)连接在一起,如图7所示。这种结构的优点是,它允许网络自动学习不同层次特征的重要性。此外,对跳跃连接进行了重新设计,使得具有不同语义尺度的特征可以在译码器中聚合,从而形成了一种高度灵活的特征融合方案。缺点仍然是由于采用了密集连接,增加了参数的数量。因此,将一种剪枝方法集成到模型优化中,以减少参数的数量。
在这里插入图片描述

2.2.2 Inception

对于CNN来说,深度网络往往比浅层网络具有更好的性能,但它们也遇到了一些新的问题,如梯度消失、网络收敛困难、内存占用大等。Inception克服了这些问题。它在不增加网络深度的情况下并行地合并卷积核,从而获得更好的性能。该结构能够利用多尺度卷积核提取更丰富的图像特征,并进行特征融合,获得更好的特征表示。Gu等通过将Inception引入医学图像分割,提出了CE-Net。然而,Inception通常比较复杂,导致模型修改困难。
在这里插入图片描述

2.2.3 Depth Separability

为了提高网络模型的泛化能力,减少对内存的使用需求,许多研究者对复杂医疗三维体积数据的轻量级网络模型进行了研究。Lei等提出了一种比V-Net更加轻量的LV-Net用于肝脏分割。通常,深度可分将标准卷积分解为逐通道卷积和逐点卷积。普通卷积的参数一般为 D K × D K × M × N D_K\times D_K \times M \times N DK×DK×M×N, M M M是输入特征的维数, N N N是输出特征的维数, D K D_K DK是卷积核大小。对于深度可分离卷积而言,其中的逐通道卷积参数为 D K × D K × 1 × M D_K\times D_K \times 1 \times M DK×DK×1×M,逐点卷积参数为 1 × 1 × M × N 1\times 1 \times M \times N 1×1×M×N,与传统卷积相比,深度可分离卷积的计算代价为 ( 1 / N + 1 / D K 2 ) \left( 1/N+1/D_{K}^{2} \right) (1/N+1/DK2),关于深度可分离卷积可参考此处博文

2.2.4 Attention Mechanism

对于神经网络来说,一个注意块可以选择性地改变输入,或者根据不同的重要性给输入变量赋予不同的权重。近年来,将深度学习与视觉注意机制相结合的研究大多集中在利用掩码形成注意机制上。掩码的原理是设计一个新的层,通过训练和学习,可以从图像中识别关键特征,然后让网络只关注图像的感兴趣区域。

局部空间注意力(Local Spatial Attention):
空间注意力块的目的是计算每个像素在空间域中的特征重要性,提取图像的关键信息。正常的池化相当于信息合并,容易造成关键信息的丢失。Jaderberg等人针对这一问题,设计了空间变换块,通过空间变换来提取图像的关键信息。受此启发,Oktay等提出了attention U-Net。改进的U-Net在融合编码器和相应解码器的特征之前,利用注意力块改变编码器的输出。注意力块输出一组用于控制像素在空间位置上重要性的门信号(gating signal)。
在这里插入图片描述
该块通过1 × 1卷积结合Relu和Sigmoid函数,生成一个权值映射,并通过与编码器的输出特征相乘进行校正。

通道注意力(Channel Attention):
通道注意块利用学习到的全局信息,选择性地强调有用的特征,抑制无用的特征,实现特征的再校准。Hu等提出了一种基于通道注意力的SE-Net,该方法采用三个步骤对通道进行注意力加权,图10显示了这个架构。
在这里插入图片描述
首先是压缩操作,对输入特征进行全局平均池化,得到1 × 1 × channel的特征映射。然后是激励操作,通过通道特征的相互作用来减少通道数量,然后将减少的通道特征重构回信道数量。最后使用sigmoid函数生成[0,1]的特征权重映射,将比例乘回到原始输入特征。图中颜色的深度即代表了该通道特征在整个特征映射上的重要程度。

混合注意力(Mixture Attention):
空间注意力忽略了不同通道信息的差异,对每个通道都一视同仁。相反,通道注意力直接集中全局信息,而忽略每个通道的局部信息,是一种相对粗糙的操作。因此,研究人员结合两种注意机制的优点,设计了多种基于混合注意力块的模型。Wang等比较了通道注意、空间注意以及两种注意的不同组合在医学图像分割中的表现。他们的结论是,以通道为中心的注意力是提高图像分割性能最有效的方法。

非局部注意力(Non-local Attention):
大多数医学图像分割模型使用局部卷积操作,该操作集中在相邻卷积核的区域,而忽略了全局信息。最近,Wang等提出了一种非局部的U-Net来克服局部卷积在医学图像分割中的缺点。非局部U-Net在上采样和下采样过程中采用自注意机制和全局聚合块提取完整的图像信息,提高了最终分割的精度。(非局部注意力等价于自注意力(Self-Attention))
在这里插入图片描述
可见,注意机制对于提高图像分割精度是有效的。事实上,空间注意力着重于寻找感兴趣的目标区域,而通道注意力着重于寻找感兴趣的特征。混合注意力机制既能利用空间又能利用通道。然而,与非局部注意相比,传统的注意力机制缺乏挖掘不同目标和特征之间关联的能力,因此基于非局部注意的CNN在图像分割任务中往往表现出比普通CNN更好的性能。

2.2.5 Multi-scale Information Fusion

医学图像分割的难点之一是目标尺度的大范围变化。例如,中晚期的肿瘤可能比早期的大得多。感知场的大小大致决定了我们可以使用多少上下文信息。

金字塔池化(Pyramid Pooling)
多尺度池化的并行操作可以有效地改善网络的上下文信息,从而提取更丰富的语义信息。He等提出的SPP将图像分为粗糙空间和精细空间,然后对图像进行局部特征采集,提取多尺度特征。受SPP的启发,一个多尺度信息提取块被设计并并命名为残差多核池化(RMP),它使用四个不同大小的池化核来编码全局上下文信息。然而,RMP中的上采样操作不能恢复细节信息的丢失,因为池化通常扩大了感受野,但降低了图像分辨率。

空洞空间金字塔池化(Atrous Spatial Pyramid Pooling)
为了减少池化操作造成的细节信息丢失,研究人员提出了用空洞卷积代替池化操作。与传统卷积相比,空洞卷积在不增加参数数量的情况下能有效扩大感受野。Chen等结合空洞卷积和SPP提出了空洞空间金字塔池化ASPP,该算法对不同尺度的同一物体有较强的识别能力。

然而ASPP在图像分割方面存在两个严重问题。第一个是局部信息的丢失,第二个则是这些信息在远距离传播后可能是不相关的。如何同时处理不同尺度的对象之间的关系,是设计一个好的空洞卷积网络的关键。针对以上问题,Wang等设计了一种混合扩展卷积(HDC)网络。该结构使用锯齿波启发式方法来分配膨胀率,从而可以访问更大像素范围的信息,从而抑制网格化效果。
在这里插入图片描述
非局部和ASPP(Non-local and ASPP)
空洞卷积能有效地扩大接受野以收集更丰富的语义信息,但由于网格效应导致细节信息丢失。因此,为了提高空洞卷积的性能,有必要增加约束或建立像素关联。最近,Yang等提出了一种ASPP与非局部结合块用于人体部位分割,如图13所示。ASPP使用不同尺度的多个并行空洞卷积来捕获更丰富的信息,而非局部操作捕获广泛的依赖关系。该组合具有ASPP和非局部的优点,在医学图像分割中具有良好的应用前景。
在这里插入图片描述

2.3 Loss Function

除了网络骨干和功能模块的设计外,损失函数的选择也是提高网络性能的一个重要因素。

2.3.1 Cross Entropy Loss

在图像分割任务中,交叉熵是最常用的损失函数之一。该函数将预测的分类向量与实际的分割结果向量进行像素级的比较。对于二进制分割,也就是分割掩码,假定 P ( Y = 1 ) = p P(Y=1)=p P(Y=1)=p P ( Y = 0 ) = 1 − p P(Y=0)=1-p P(Y=0)=1p,预测结果根据Sigmoid函数给出,即 P ( Y ^ = 1 ) = 1 / ( 1 + e − x ) = p ^ P(\hat{Y}=1)=1/(1+e^{-x})=\hat{p} P(Y^=1)=1/(1+ex)=p^ P ( Y ^ = 0 ) = 1 − 1 / ( 1 + e − x ) = 1 − p ^ P(\hat{Y}=0)=1-1/(1+e^{-x})=1-\hat{p} P(Y^=0)=11/(1+ex)=1p^ x x x是网络输出,最终交叉熵损失即可定义为:
在这里插入图片描述

2.3.2 Weighted Cross Entropy Loss

交叉熵损失对图像的每个像素都进行同等处理,从而输出一个平均值,忽略了类的不平衡,例如包含大量像素的类对损失函数的影响较大而只包含少量像素的类对损失函数的影响很小。因此,交叉熵损失在小目标分割中往往表现出较低的性能。

为了解决类不平衡的问题,Long等人提出了加权交叉熵损失(WCE)来抵消类不平衡。在二值分割的情况下,将加权交叉熵损失定义为:
在这里插入图片描述
其中 β \beta β用于调整正样本和负样本的比例,它是一个经验值,如果 β > 1 \beta>1 β>1,假阴性数量减少,反之如果 β < 1 \beta<1 β<1,假阳性数量减少。为了同时调整正样本和负样本的权重,我们可以使用平衡交叉熵(BCE)损失函数定义为:
在这里插入图片描述
Ronneberger等人提出了通过添加距离函数改进交叉熵损失函数的U-Net,改进后的损失函数可以提升类间距离的学习能力,距离函数定义如下:
在这里插入图片描述
其中 d 1 ( x ) d_1(x) d1(x) d 2 ( x ) d_2(x) d2(x)代表了像素 x x x和前两个最近单元格边界之间的距离,最终损失函数的定义更改为:
在这里插入图片描述

2.3.3 Dice Loss

Dice是一种常用的医学图像分割评价指标。这个度量本质上是对分割结果和相应的ground-truth之间重叠的度量。Dice的取值范围是0 ~ 1。“1”表示分割结果与真实分割结果完全重叠。计算公式定义为:
在这里插入图片描述
其中 A A A为预测分割结果, B B B为真实分割结果。

对于三维医学数据分割,Milletari等提出了利用Dice loss的V -Net:
在这里插入图片描述
其中 < p , p ^ > <p,\hat{p}> <p,p^>代表各通道的ground-truth与预测结果矩阵的点积。

值得注意的是,Dice Loss是适用于不均匀样本的。然而,使用Dice Loss很容易影响反向传播,导致训练困难。此外,由于梯度值置信度较低,Dice Loss对于平均表面距离或Hausdorff表面距离等不同模型的鲁棒性都很低。例如,softmax函数的梯度值可以简化为 ( p − t ) (p-t) (pt) t t t是目标值而 p p p为预测值,但是Dice Loss的梯度为 2 t 2 / ( p + t ) 2 2t^2/(p+t)^2 2t2/(p+t)2,如果 p p p t t t的值过小,则梯度值会发生剧烈变化,导致训练困难。

2.3.4 Tversky Loss

Salehi等人提出了Tversky损失(TL),它是Dice损失的正则化版本,以控制假阳性和假阴性对损失函数的影响。TL被定义为:
在这里插入图片描述
其中 p ∈ 0 , 1 p\in0,1 p0,1 0 ⩽ p ^ ⩽ 1 0\leqslant \hat{p}\leqslant 1 0p^1,前者为ground-truth,后者为预测的分割。

2.3.5 Generalized Dice Loss

虽然Dice Loss可以在一定程度上解决类不平衡的问题,但对严重的类不平衡问题仍然效果不佳。例如,小目标的某些像素的预测误差容易导致Dice Loss的较大变化,Sudre等人提出了一种Generalized Dice Loss(GDL), GDL定义为:
在这里插入图片描述
其中,权重 ω = [ ω 1 , ω 2 , . . . , w m ] \omega =\left[ \omega _1,\omega _2,...,w_m \right] ω=[ω1,ω2,...,wm]分配给每个类, ω j = 1 / ( ∑ i = 1 n p i j ) 2 \omega _j=1/\left( \sum\nolimits_{i=1}^n{p_{ij}} \right) ^2 ωj=1/(i=1npij)2由于不同区域对损失的贡献相似,因此GDL优于Dice loss,并且GDL在训练过程中更加稳定和鲁棒。

2.3.6 Boundary Loss

为了解决类别不平衡的问题,Kervadec等提出了一种新的用于脑损伤分割的Boundary Loss。这个损失函数的目的是最小化分割的边界和标记的边界之间的距离。实验表明Dice Loss和Boundary Loss的组合优于单一的Dice Loss,综合损失的定义是:
在这里插入图片描述
这部分具体损失构造比较复杂,但非常有意思且实用性高,有兴趣还请参照原文

2.3.7 Exponential Logarithmic Loss

在GDL中,加权的Dice损失实际上是得到的Dice值除以每个标签的总和,从而实现了对不同尺度的物体的平衡。因此,Wong等将Focal Loss和Dice Loss相结合,提出了Exponential Logarithmic Loss(EXP loss)用于大脑分割,以解决严重的类别不平衡问题。通过引入指数形式,可以进一步控制损失函数的非线性过程,提高分割精度。EXP loss函数定义为:
在这里插入图片描述
相对复杂,有兴趣请同样参照原文。

2.3.8 Loss Improvements

对于医学图像分割,loss的改进主要集中在大背景下小目标的分割问题(类不平衡问题)。还有很多工作[试图通过在损失函数中添加惩罚或根据具体任务改变优化策略来解决这一问题。

在许多医学图像分割任务中,往往一幅图像中只有一个或两个目标,而且目标的像素比有时很小,这使得网络训练困难。因此,为了提高网络训练和分割精度,改变损失函数比改变网络结构更容易集中在较小的目标上。但损失函数的设计具有很强的任务针对性,需要仔细分析任务需求,设计合理可用的损耗函数。

2.3.9 Deep Supervision

一般来说,网络深度的增加可以在一定程度上提高网络的特征表示,但同时也会产生新的问题,如梯度消失、梯度爆炸等。为了有效地训练深度网络,Lee等人提出了深度监督网络(deep - supervised nets, DSNs),在神经网络的某些层次上添加一些辅助分支分类器。Dou等人提出了一种用于心脏和肝脏分割的三维深度卷积网络,该网络将三维深度监测机制引入到三维全卷积网络中,用于volume-to-volume 的学习和推理,消除了冗余计算,并在训练数据有限的情况下降低了过拟合风险。事实上,深度监督不仅可以约束学习特征在各个阶段的判别和鲁棒性,而且可以提高网络的训练效率,关键在于如何设计模型来抵消深度监督的负面影响。

3. Weakly Supervision Learning

尽管卷积神经网络对医学图像分割具有很强的适应性,但分割结果严重依赖于高质量的标签。事实上,构建大量具有高质量标签的数据集是非常困难的,尤其是在医学图像分析领域,数据采集和标记往往需要较高的成本。因此,如何使用不完整或不完备的数据集是当下的研究热点,下图展示了弱监督学习的主要方向:
在这里插入图片描述

3.1 Data Augmentation

在缺乏大量标记的数据集的情况下,数据增强是解决这一问题的有效方法。然而,一般的数据扩展方法产生的图像与原始图像高度相关。与常见的数据增强方法相比,Goodfellow提出的GAN是目前流行的数据增强策略,因为GAN克服了依赖原始数据的问题。

3.1.1 Traditional Methods

一般的数据增强方法包括改善图像质量(如噪声抑制),改变图像强度(如亮度、饱和度和对比度),改变图像布局(如旋转、失真和缩放)等。事实上,传统数据增强最常用的方法是参数变换(旋转、平移、剪切、移位、翻转……)。由于这种转换是虚拟的,不需要计算成本,因此通常在每次训练前进行。

3.1.2 Conditional Generative Adversarial Nets (cGAN)

原始GAN生成器 G G G可以学习数据分布,但生成的图片是随机的,这意味着 G G G的生成过程是一个无引导状态。而cGAN为原始GAN增加了一个条件,以指导 G G G的生成过程。
在这里插入图片描述
图15显示了cGAN的架构。Guibas等人提出了一种由GAN[61]和cGAN组成的网络架构。将随机变量输入到GAN中,生成眼底血管标签合成图像,然后将生成的标签映射输入到条件GAN中,生成真实的视网膜眼底图像。最后,通过检查判别器器是否能够区分合成图像和真实图像来验证合成图像的真实性。尽管cGAN生成的图像存在边界模糊、分辨率低等诸多缺陷,但cGAN为后期用于图像样式转换的CycleGAN和StarGAN提供了基本思路。

3.2 Transfer Learning

迁移学习利用模型的训练参数初始化新模型,可以对标签有限的数据实现快速的模型训练。一种方法是针对目标医学图像分析任务微调ImageNet上的预训练模型,而另一种方法是将训练的数据从多个领域迁移。

3.2.1 Pre-trained Model

迁移学习经常被用来解决数据标签有限的情况,一些研究人员发现,使用在ImageNet上的预训练网络作为编码器在U-Net-like网络上对医学图像数据进行微调就可以进一步提高医学图像的分割效果。

Kalinin等人使用在ImageNet上预先训练的VGG-11、VGG-16和ResNet-34网络作为U-Net的编码器,对血管增生性病变和外科手术的无线胶囊内镜视频中的机器人仪器进行语义分割。同样,Conze等使用ImageNet上预先训练的VGG-11作为分割网络的编码器,进行肩胛肌MRI分割。实验结果表明,该算法能够有效提高图像分割的精度。

可以得出的结论是,ImageNet上的预训练模型可以学习医学和自然图像所需要的一些共同的底层特征,因此不需要再训练过程,而对训练模型进行微调是有用的。然而,当将预先训练好的自然场景图像模型应用于医学图像分析任务时,域自适应可能是一个问题。此外,目前流行的迁移学习方法很难应用于3D医学图像分析,因为预先训练的模型往往依赖于2D图像数据集。如果带注释的医疗数据集数量足够大,则可能预训练对提高模型性能的效果较弱。事实上,预训练模型的效果是不稳定的,它取决于分割数据集和任务。在经验上,我们可以尝试使用预先训练的模型,如果它可以改善分割准确率,否则我们就得考虑设计新模型了。

3.2.2 Domain Adaptation

如果来自训练目标域的标签不可用,而我们只能访问其他域的标签,那么流行的方法是将源域上训练好的分类器转移到没有标记数据的目标域

CycleGAN是一种循环结构,主要由两个生成器和两个判别器组成。首先,一个在X域的图像通过生成器G转移到Y域,然后生成器G的输出通过生成器F在X域中重构回原始图像。相反,一个在Y域的图像通过生成器F转移到X域,然后生成器F的输出通过生成器G在Y域中重构回原始图像。判别器G和F都起着判别作用,保证了图像的风格传递。
在这里插入图片描述
Huo等利用CycleGAN对CT图像中的脾脏分割任务提出了一种联合优化的图像合成和分割框架。该框架实现了从标记的源域到合成图像目标域的图像转换。在训练过程中,使用合成的目标图像来训练分割网络。在测试过程中,直接将目标域的真实图像(不带标签)输入到训练好的分割网络中,以获得理想的分割结果。

3.2.3 Interactive Segmentation

手工绘制医学图像分割标签通常是一项繁琐耗时的工作,特别是绘制三维体数据。交互式分割允许临床医生对模型生成的初始分割图像进行交互式校正,以获得更准确的分割。有效的交互分割的关键是,临床医生可以使用交互方法,如鼠标点击和轮廓框,以而改善从模型输出的初始分割结果。然后,该模型可以更新参数并生成新的分割图像,再获得临床医生的新的反馈。

Wang等提出了利用两个CNN级联的DeepIGeoS对二维和三维医学图像进行交互式分割。第一个被称为P-Net的CNN输出一个粗糙的分割结果。在此基础上,用户提供交互式的点击或划线来标记错误的分割区域,然后将这些点或线作为第二个称为R-Net的CNN结构的输入,从而得到修正后的结果。

Rupprecht等人提出了一种新的交互式分割方法GM-Interaction,根据用户输入的文本更新图像分割结果。这种方法通过交互地修改编码器和解码器之间的特征映射来改变网络的输出。首先根据用户的响应设置区域的类别,然后通过反向传播更新乘法和偏移系数等指导参数,最后改变特征映射,更新分割结果。

3.2.4 Others Works

半监督学习可以使用一小部分标记数据和任意数量的未标记数据来训练模型,其损失函数通常由两个损失函数之和组成。第一个是只与标记数据相关的监督损失函数。第二种是与标记数据和未标记数据相关的无监督损失函数或正则化术语。

Zhang等基于GAN的思想,提出了一种基于分割网络和评价网络对抗方式的半监督学习框架。将一幅图像输入U-Net,生成分割图,然后将分割图与原始图像叠加,提交给评估网络,获得分割分数。在训练过程中,对分割网络进行了两方面的优化,一是尽量减少标记图像的分割损失,二是使评价网络对未标记图像获得高分。此外,不断更新了评价网络使其对无标记的图像给予低分,对有标记的图像给予高分。由于这种对抗学习,分割网络从标记和未标记的图像中获得监督信号。

4. Future Research Direction

4.1 Network Architecture Search

目前的绝大多数神经网络框架通常是由行业专家或学者花费数月甚至数年的时间来设计的,因为设计性能优良的网络体系结构通常需要大量的领域知识。因此,对于没有领域知识的研究者来说,设计过程是费时费力的。

到目前为止,NAS在提高图像分类精度方面取得了显著进展。NAS可以被认为是自动机器学习(AutoML)的一个子领域,与超参数优化和元学习有很强的重叠。目前对NAS的研究主要集中在三个方面:搜索空间、搜索策略和性能评估。搜索空间是待搜索网络结构的候选集合。

搜索空间分为全局搜索空间和基于单元的搜索空间,前者表示搜索整个网络结构,后者表示搜索通过堆叠和拼接的方式组装成一个完整的大型网络的少数小结构。搜索策略的目标是尽可能快地找到最优的网络结构,流行的搜索策略通常分为三类:基于强化的学习、进化算法和梯度。性能评估策略是评估网络结构在目标数据集上的性能的过程。对于NAS技术,由于搜索空间和性能评估方法很少改变,研究人员更关注搜索策略的改进。

目前关于深度学习在医学图像分割中的研究大多依赖于U-Net网络,并根据不同的任务对网络结构进行一些改变,但实际上,非网络结构因素对提高分割效果可能也很重要。Isensee等人认为对网络结构进行过多的人工调整会导致对给定数据集过拟合,因此提出了一种医学图像分割框架no-newUNet (nnU-Net),该框架能够适应任何新的数据集。nnUnet根据给定数据集的属性自动调整所有超参数,无需人工干预。因此,nnU-Net仅依赖于vanilla 2D UNet、3D UNet、UNet级联和鲁棒训练方案。它侧重于预处理(重采样和规范化)、训练(丢失、优化器设置、数据增强)、推断(基于补丁的策略、测试时间增强集成、模型集成等)和后处理(例如,增强的单遍域)。在实际应用中,网络结构设计的改进往往依赖经验,没有足够的可解释性理论支持,网络模型越复杂,过拟合风险越大。

为了实现对高分辨率二维图像(如CT、MRI和组织病理学图像)的实时图像分割,压缩神经网络模型的研究已成为医学图像分割的一个热门方向。NAS的应用可以有效地减少模型参数的数量,获得较高的分割性能。尽管NAS的性能是惊人的,但是为什么特定的体系结构表现良好的事实无法解释。因此,更好地理解对性能有显著影响的机制,并探索这些特性是否可以推广到不同的任务中,对于未来的研究也很重要。

PS:总之AutoML确实是未来的方向,但这个未来究竟还有多久就不知道了…而且由于对算力的庞大要求,一般人也玩不来。

4.2 Graph Convolutional Neural Network

GCN是研究非欧几里得域的有力工具之一。图是由节点和边组成的数据结构。早期的图神经网络(GNNs)主要解决诸如分子结构分类等严格的图形问题。在实践中,欧几里得空间(如图像)或序列(如文本)以及许多常见的场景可以被转换成可以使用GCN技术建模的图。

Gao等在GCN的基础上设计了新的图池化(gPool)和图反卷积(gUnpool)操作,提出了一种编解码器模型,即图U-Net。图U-Net通过添加少量的参数,获得了比常用的unet更好的性能。与深度越深越好的传统卷积神经网络相比,当深度超过4时,图U-Net的性能并不能通过增加网络的深度来提高。然而,当深度值小于或等于4时,图U-Net比流行的U-Net具有更强的特征编码能力。

Yang等提出了端到端条件部分残差图卷积网络CPR-GCN用于冠状动脉自动解剖标记。作者表明,基于gcn的方法比传统的和最近的基于深度学习的方法提供了更好的性能和更强的鲁棒性。图结构具有较高的数据表示效率和较强的特征编码能力,在医学图像分割中具有广阔的应用前景。

PS:不光是图像分割,事实上这几年很多领域都在用图神经网络去验证性能,是一个发展很快的方向。

4.3 Interpretable Shape Attentive Neural Network

目前,很多深度学习算法都倾向于使用与输入数据近似匹配的“记忆”模型来进行判断。因此,这些算法不能对每一个具体的预测给出充分的解释和令人信服的证据。因此,深度神经网络可解释性的研究是当前的一个热点问题。

Sun等人提出了关注模型的可解释性和鲁棒性的SAU-Net。提出的体系结构试图通过使用二次形状流来解决医学图像边缘分割精度较差的问题。特别的是,形状流和规则纹理流可以同时捕获丰富的与形状相关的信息。同时利用空间注意机制和通道注意机制来解释模型在不同分辨率下的学习能力。最后,通过提取学习到的形状和空间注意图,我们可以解释每个解码器块的高度激活区域。学习到的形状图可以用来推断模型学习到的感兴趣类别的正确形状。SAU-Net能够通过门形状流学习物体的鲁棒形状特征,比过去使用注意力的内置显著性映射更具解释性。

Wickstrøm等人探讨了卷积神经网络中结肠息肉语义分割的不确定性和可解释性,作者进一步阐明了反向传播的核心思想来解释网络梯度。通过反向传播,得到输入中每个像素对应的梯度,从而将网络所考虑的特征可视化。在反向传播过程中,图像中梯度值较大且为正的像素因为高重要性而受到更多的关注,而大的和负梯度值的像素应该被抑制。如果这些负梯度包括在重要像素的可视化中,它们可能会导致描述性特征的噪声可视化。为了避免产生有噪声的可视化效果,反向传播引导将改变神经网络的反向传播,从而将每一层的负梯度设置为零,从而只允许正梯度向后通过网络并突出显示这些像素。

医学图像分析是临床诊断的一种辅助手段,临床医生不仅要考虑病变的位置,而且要考虑网络给出的结果的可解释性。目前,医学图像分析的解释主要是可视化方法,如注意力和类激活地图(CAM)。因此,研究深度学习在医学图像分割中的可解释性将是未来的一个热门方向。

4.5 Multi-modality Data Fusion

多模态数据融合由于能够提供更丰富的目标特征,有助于提高目标检测和分割结果,在医学图像分析中得到了广泛的应用。Dou等提出了一种新的多模态学习方案,用于从未成对的CT和MRI图像中精确分割解剖结构,并利用知识蒸馏设计了一种新的损失函数,以提高模型训练效率。更具体地说,用于不同模式(即CT和MRI)的标准化层是在单独变量中实现的,而卷积层是在共享变量中构建的。在每次训练迭代中,分别加载每个模态的样本,然后转发到共享的卷积和独立的归一化层,最后得到可用于计算知识蒸馏损失的对数。

Moeskops等人研究了一个问题:是否有可能训练单个卷积神经网络(CNN)对不同的模态数据执行相同的分割任务。众所周知,CNN在图像特征编码方面表现出优异的性能,在此基础上的实验进一步证明,CNN在用于相同任务时,对于多模态数据的特征编码也表现出优异的性能。因此,一个单一的系统可以用于临床实践中对各种模态的数据自动执行分割任务,而不需要额外的特定任务的训练

虽然多模态融合网络通常比单模态网络具有更好的分割性能,但多模态融合也带来了一些新的问题,如如何设计多模态网络来有效地组合不同的模态、如何发掘不同模态间的潜在关系、如何将多种信息整合到分割网络中以提高分割性能等。

5. Discussion And Outlook

5.1 Medical Image Segmentation Datasets

下表展示了部分常用的医学图像数据集:

DatasetObjectURL
LiTSLiverhttps://competitions.codalab.org/competitions/17094
Sliver07Liverhttp://www.sliver07.org
3DircadbLiverhttps://www.ircad.fr/research/3dircadb/
NIH PancreasPancreashttp://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49
COLONOGRAPHYColon cancerhttps://wiki.cancerimagingarchive.net/display/Public/CT+COLONOGRAPHY#dc149b9170f54aa29e88f1119e25ba3e
AMRG Cardiac Atlas Hearthttp://www.cardiacatlas.org/studies/amrg-cardiac-atlas/
LIDC-IDRI Lunghttps://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI#
PROMISE12 Prostatehttps://promise12.grand-challenge.org/
OASISBrainhttp://www.oasis-brains.org/
BRATSBrainhttps://www.med.upenn.edu/sbia/brats2018/registration.html
ISLESBrainhttp://www.isles-challenge.org/
mTOP Brainhttps://www.smir.ch/MTOP/Start2016
KITSKidney https://kits19.grand-challenge.org
CHAOSSpleen, Liver, Kidneyshttps://chaos.grand-challenge.org
Medical Segmentation DecathlonSpleen, Liver, Pancreas, Brain Tumor, Heart, Hippocampus, prostate, Lung, Hepatic Vessel, Colonhttp://medicaldecathlon.com/index.html

5.2 Challenges and Future Scope

实践证明,基于深度神经网络的医学图像全自动分割是非常有价值的。通过回顾深度学习在医学图像分割中的进展,我们发现了潜在的困难。研究人员成功地采用了多种手段来提高医学图像分割的准确性。然而,仅仅提高精度并不能说明算法的性能,特别是在医学图像分析领域,必须考虑类不平衡问题、噪声干扰问题和漏检所带来的严重后果。在接下来的小节中,将分析医学图像分割未来潜在的研究方向。

5.2.1 Design of Network Architecture

在医学图像分割的研究中,网络结构设计的创新是最受欢迎的,因为网络结构设计的改进效果明显,并且易于转移到其他任务中。通过回顾近年来的经典模型,我们发现具有长短跳跃连接的编解码U形网络的基本框架在医学图像分割中得到了广泛的应用。残差网络(ResNet)和稠密网络(DenseNet)分别证明了网络深度加深的影响和残差结构的有效性对梯度传播的影响。在深度网络中跳跃连接可以促进梯度传播,从而减少梯度分散的风险,从而提高分割性能。此外,对跳跃连接的优化将允许模型提取更丰富的特性

此外,网络模块的设计也值得探索。近年来,空间金字塔模块在语义分割领域得到了广泛的应用。较少参数的空洞卷积允许更大的接受野,特征金字塔允许获得不同尺度的特征。空间通道注意模块的开发使得神经网络特征提取过程更具针对性,因此针对任务的特征提取网络模块的设计也很值得研究。

手工设计模型结构需要丰富的经验,NAS逐渐取代手工设计是必然的。然而,由于内存和GPU的限制,直接搜索大型网络是困难的。因此,未来的趋势应该是手工设计与NAS技术的使用相结合。首先手工设计骨干网,然后在训练前由NAS搜索小的网络模块。

不同卷积运算的设计也是一个有意义的研究方向,如空洞卷积、可变形卷积、深度可分离卷积等。虽然这些卷积对于提高模型的性能都非常出色,但它们仍然属于传统的卷积类。图卷积作为一种处理非欧几里得数据的卷积方法,超越了传统的卷积,因为图结构更高效,具有较强的语义特征编码能力,对医疗数据有很大的应用价值。

5.2.2 Design of Loss Function

在医学图像分割的具体任务中,使用经典的交叉熵损失函数与特定的正则化项或特定的损失函数相结合已成为一种流行趋势。此外,使用领域知识或先验知识作为规则术语或设计特定的损失函数可以获得更好的医学图像特定任务分割结果。另一种方法是基于NAS技术的自动损失函数(或正则化术语)搜索。

5.2.3 Other Research Directions

迁移学习:医学成像有很多种方法,这个过程通常伴随着很多噪声。此外,带有标签的医学图像的数量往往是有限的。利用在一般图像上预先训练好的深度学习模型对医学图像进行分割是一个值得进一步研究的方向。

模型可解释性:通过研究能够提高模型性能的关键设计,分析性能改进的原因和意义,以指导网络设计。

预处理和后处理:数据预处理可以提高数据质量,帮助神经网络更好地学习特征,而后处理的操作可以依靠先验知识提高分割结果。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐