2022 CCF BDCI 

第十届CCF大数据与计算智能大赛

第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束,大赛官方竞赛平台DataFountain(简称DF平台)将陆续释出各赛题获奖队伍的方案思路,欢迎广大数据科学家交流讨论。

本方案为【基于昇思MindSpore AI框架的肾脏肿瘤分割】赛题的二等奖获奖方案,赛题地址:http://go.datafountain.cn/3056(戳底部“阅读原文”可直达)

获奖团队简介

团队名称:大山中学摸奖

团队成员:“大山中学摸奖”团队成员共计 3 人,均为中山大学智能工程学院 20 级本科生(大三)。团队成员秉承着“博学 审问 慎思 明辨 笃行”的校训,以人工智能理论和方法为核心,探索人工智能前沿领域,创造价值,互联思维。该团队曾参加并完成《人体检测 SDK 设计》华为众智项目,并且在2022 昇腾 AI 创新大赛昇思赛道中获得金奖。

所获奖项:二等奖

摘   要

随着社会经济的发展,肾癌的发病率也在不断提高。因此,如何及时发现并有效治疗肾脏肿瘤就成为了一个十分关键的课题。近年来,随着深度学习、计算机视觉技术的迅猛发展,AI 在图像分类、目标检测、语义分割等任务上都取得了很好的效果。这让我们得以将各种深度学习技术迁移到医疗领域,并让大规模、高精度的肾脏肿瘤分割成为了可能。

由于切片厚度不同、肿瘤多灶性、肿瘤大小不一和肿瘤亚型等因素,使得图像分割任务不可避免地遇到许多困难。我们提出了一种基于多模态数据的混合 Unet,利用多模态输入将2D 信息与 3D 信息进行融合。在编码过程中,利用了边缘导向模块提供细粒度约束,引入与边缘相关的特征。在解码过程中,使用了大量的残差连接,以此捕获全尺度下的细粒度语义和粗粒度语义,同时应用了权重聚合模块,来聚合全尺度信息和边缘信息。

我们提出的模型最终在 kits19 数据集上自验得到 95.8%(肾脏分割)和 71.3%(肿瘤分割)的 Dice得分。与现有的其它方法相比,提出的方法可以实现较高的准确率,并且有很大的改进空间和应用前景。

关 键 词

多模态数据融合、边缘导向模块、全尺度信息、权重聚合模块

1.概述

在中国,肾脏肿瘤的发病率以年均约 6%的速度递增,过去 20 年间累计增长 111.72%。不久的将来,肾脏肿瘤将成为严重威胁人们健康尤其是男性健康的又一大“杀手”。

传统上,人们通过全肾切除术来根治肿瘤。然而,为了保护肾功能,只切除肿瘤的部分切除术,最近已成为肾脏肿瘤的标准治疗方法。但是对于治疗方案的选取,是全切除、部分切除还是积极监测,临床医生主要依靠影像学(如 CT)来进行评估,这不仅需要大量人工,而且评分专家之间的标准可能具有不一致性。

因此,开发出能克服人工评分系统弊端的,智能化的肾脏肿瘤自动评估系统,就成为了一个研究重点。我们期望该系统能够包括以下功能:在 CT 等医学影像中自动分割出肾脏及肿瘤所在的区域,判断肿瘤是良性还是恶性的,以及评判肿瘤的侵袭性等。在所有这些功能中,肾脏及肿瘤区域的自动分割是最基础、最直观的,能为医生诊断提供较大的便利。

近年来,AI 在图像领域的应用十分热门,基于神经网络的图像分类、图像分割和目标检测等方法层出不穷。由于医学图像分辨率高、具有多模态、像素单一、边缘形状模糊和类别不均衡等问题,使得传统 CNN 网络的预测效果并不是很好。我们基于 Unet 网络结构进行改进,提出了一种基于多模态数据的混合 Unet。该网络同时输入 2D 平面信息和 3D 空间信息,在编码过程中将两者进行融合。同时提取图像边缘信息,根据边缘的约束可以提高图像分割的准确率。在解码器部分,使用了大量的残差连接,将各尺度下的信息进行综合,同时利用权重聚合对多尺度信息进行筛选,以此保留有价值的信息。将边缘信息与经过权重聚合的多尺度信息进行融合,据此来对图像进行分割。实验证明,我们提出的方法在肾脏肿瘤分割上的表现十分出色,并且具有极大的改进空间。

本文的创新点与贡献如下:

1)巧妙地利用了多模态输入,有效地结合 2D 平面信息与 3D 纵向空间信息。

2)既利用了三维卷积提取空间特征的能力,又避免了三维卷积网络内存占用大的问题

3)通过多个模块对边缘信息进行进一步加强提取利用,图像分割抗锯齿效果进一步加强。

4)使用小模型解决难题,最终模型权重文件大小仅为12MB,单个 step 推理时间仅约为 81.58ms,有极大的改进空间和应用前景价值。

2.相关工作

Olaf Ronneberger 等人于 2015 年提出了 Unet 网络用于解决医学图像分割的问题和细胞层面的分割任务[1]。Unet 网络一被提出,就迅速成为了最常用的分割模型之一,因为它简单、高效、易懂、容易构建,同时也有着不错的精度。Unet之所以能取得不错的表现,主要是由于以下的原因:通常来说,一个 CNN 中的浅层网络关注细节纹理特征,深层网络关注语义特征,浅层和深层特征都是有意义的。而对于医学图像分割任务,我们既需要语义,也需要细节。那么通过低层和高层特征的拼接,就能在一定程度上实现两者的兼顾,找回那些在下采样过程中丢失的边缘特征。

2019 年,Huazhu Fu 等人提出了 ET-Net 模型[2],这个模型最大的创新之处,就在于作者提出的两个模块:EdgeGuidance Module ( EGM , 边 缘 导 向 模 块 ) 和 Weighted Aggregation Module(WAM,权重聚合模块)。EGM 模块用于提取边缘信息,WAM 模块用于对多尺度信息进行聚合,两者相辅相成。

2019 年,Yifei Zhang 等人提出了 CMnet 模型[3],这个模型最大的创新之处就在于它通过多模态数据的融合来提升模型表现。所谓多模态融合,指的是把以不同方式获得的对同一样例的特征表示输入到网络中,使模型对样本特性有更全面的了解。

2020 年,Lanfen Lin 等人提出了 UNet3+模型[4],网络中使用了大量的残差连接,每一个解码器都融合了小尺度、同尺度和大尺度的特征图,实现了在多尺度中探索足够的信息。最终做到了生物医学图像分割精度和效率的同步提升。

3.赛题、数据分析

3.1 赛题任务

该赛题的目标是开发快速可靠的肾脏和肾脏肿瘤语义分割方法,形态上的异质性以及模糊的组织边界可能是需要解决的难题。比赛提供接受部分或根治性肾切除术的 210 例肾癌患者的动脉期腹部 CT 扫描数据,并标记了真实的语义分割结果。

本赛题中,参赛团队需要设计、开发可用于肾脏和肾脏肿瘤语义分割的算法模型,设计基于高性能深度学习模型的肾肿瘤分割算法,实现肿瘤的快速精准分割,在测试集中得到最好的肾脏和肾脏肿瘤语义分割结果的模型为获胜者。

3.2 评价指标

在没有上下文的情况下,我们往往很难确定假阳性(将正常组织分类成肿瘤)或假阴性(将肿瘤分类成正常组织)中的哪一个,是我们更不希望看到的情况。

在临床手术的情境下,人们可能会认为假阴性更严重,因为它们可能导致肿瘤只被部分切除,但肿瘤组织通常与健康肾脏不同,因此这不是外科医生迫切关注的问题。相反,其他人可能认为假阳性实际上更严重,因为它们可能加剧许多人认为的肾脏肿瘤过度积极治疗的严重问题。

在像 KiTS19 这样的比赛中,人们使用的是一种被称为 Fscore 或 Dice score 的评价指标,其公式如下所示。当β趋于 0时,倾向于避免假阳性;当β趋于+∞时,倾向于避免假阴性。于是我们可以通过调整β的取值来以不同的倾向来评估模型的性能。

3.3 数据分析

3.3.1 CT图像的复杂性

对于提供的 210 例腹部 CT 扫描数据,存在切片厚度不一的情况。在切片间隔较远的情况下,模型可能难以理解数据的 3D 性质。另外,切片厚度的变化范围大,直接导致数据在深度方向上的各向异性,主要影响到三维卷积层,因为三维卷积无法理解空间上各向异性的信息。

同时提供的数据存在着扫描视场的纵向长度(FOV 长度)不一的情况。更长的视场通常导致更大范围的解剖特征显示,在某些情况下包括从头顶到脚底的所有影像。因此,那些完全用腹部扫描的数据训练出的模型可能会在这些不熟悉的区域出现假阳性。

3.3.2 肿瘤数据的复杂性

在提供的数据中,部分样本存在多个病灶。由于多灶性的罕见,网络模型往往会倾向于预测单个肿瘤区域。

在大部分样本中,肿瘤的大小相对于整个 CT 图只占很小的一部分。肿瘤越小,其在区域边界上的比例越高。由于绝大多数分割错误发生在区域边界上,因此其很可能会有较低的 Dice Score。此外,较小的肿瘤通常更容易被完全忽略。肾脏肿瘤不只是表现为一种性状,而是存在着许多亚型。不同的肾脏肿瘤亚型具有不同的典型 CT 影像表现,某些亚型可能比其它亚型更容易识别。某些亚型(如血管平滑肌脂肪瘤)典型表现为低衰减,使得很难将它们与肾囊肿区分开。

由于肿瘤存在明显的个体差异,不同个体的肿瘤 CT 图像在形态、纹理和灰度分布上存在较大差异,可能出现多个肿瘤及其模糊边界。

4.基于多模态数据的混合 Unet

4.1 网络结构

图 1:提出的网络结构

首先网络拥有两个输入,一边输入 2D 平面数据,另一边输入 3D 空间数据。分别经过各自的编码器,在编码过程中,2D 编码器的输出会与 3D 编码器的输出进行融合,然后用EGM 模块提取分辨率较高的特征中的边缘信息。融合模块就是将两个张量在通道上进行连接,然后再进行卷积得到融合结果。编码器的输出经过融合后输入到解码器中,然后利用WAM 模块对全尺度信息进行提取,然后与 EGM 模块的输出进行融合,得到最后的预测结果。网络的编码解码器结构是参照于 UNet3+[4]进行设计的,故不再进行赘述。

4.2 3D-Encoder

图 2:3D 编码器的内部结构

3D 编码器由转换器和 2D 编码器组成。转换器的输入是一个 3D 图像输入,首先经过一个三维卷积初步得到特征图,然后用两条路径对得到的特征图进行处理。

第一条路径是一个核大小为 5×5×5 的三维卷积,第二条路径包含两个三维卷积,大小都是 3×3×3,使用这两条路径是为了从不同核大小的区域捕获信息,丰富彼此的输出。将每条路径的输出进行组合,得到大小为 16×1×512×512 的特征图,然后将其 reshape 为大小为 16×512×512 的特征图。这个转换器的特征图就成为接下来的 2D 编码器的输入。在这里使用到了三维卷积,用来提取空间信息,同时经过卷积进行了降维,使得后续可以使用二维的编码器,避免了网络内存占用大的问题。

4.3 Edge Guidance Module

图 3:EGM 的内部结构

边缘信息能为分割过程中的特征提取提供有用的细粒度约束,所以在分割任务中引入边缘相关的特征有助于改善分割表现。而只有前两个编码器所提取出的特征图有足够高的分辨率,所以 EGM 选择以 E-BLock1 和 E-BLock2 输出的特征图为输入。E1 特征图与上采样后的 E2 特征图各自经过了1×1 和 3×3 卷积后拼接在一起,然后通过 1×1 卷积,用来产生最终的边缘检测结果,为后续解码器提供有用的边缘特征。

4.4 Weighted Aggregation Module

图 4:WAM 的内部结构

为了适应物体的形状和大小变化,现有的方法倾向于沿通道维度对多尺度输出进行汇总,以进行最终预测。然而,并非高层特征图中的所有通道都有利于对象的恢复。针对这一问题,WAM 强调有价值的特征,并聚合多尺度信息和边缘约束来提高分割性能。如结构图所示,网络将每个 D- Block 的输出输入到 Weighted Block 中,以突出有价值的信息。再将各层提取到的信息进行整合,得到模块输出。

4.5 Weighted Block

图 5:Weighted Block 的内部结构

Weighted Block 先用 1×1 卷积对输入进行改造,然后有两条支路。上面的支路用于提取权重:首先采用全局平均池化对输入的全局上下文信息进行聚合,然后利用两个具有不同非线性激活函数 ReLU 和 Sigmoid 的 1×1 卷积层对相关性进行估计,并沿通道维度生成权重。下面的支路不进行任何操作。两条支路的交汇点是用提取到的权重与原来改造的输出进行相乘以获得更有代表性的特征。

5.应用效果

在初赛作品基础上进行一系列的优化后,最终一次自验过程当中,该模型对于肾脏以及肿瘤分别取得了 0.95819、0.71307 的 Dice 得分,平均 Dice 得分为 0.83563,以下将展示部分测评效果(统一为:左边为 CT 图像,中间为真实分割结果,右边为模型预测结果)。

图 6:效果展示

6.结论

在本文中,我们创新性地提出了一种基于多模态数据的混合 Unet。网络输入为 2D 和 3D 数据,分别经过独立的编码器进行编码,参考 CMnet 的融合策略[3],将 2D 和 3D 各层编码器的输出进行融合。在 3D 编码器中,有效利用了三维卷积的空间提取能力,同时规避了内存占用过大的问题。参考ET-Net 的两种模块[2],设计了边缘提取模块和权重聚合模块。参考 UNet3+的全尺度连接[4],在解码器中应用了大量的残差连接。同时使用双线性插值的方法进行上采样,减少了参数量和网络复杂度。以上的操作,有效地提高了肾脏肿瘤分割的效果,同时压缩了网络的大小,使得网络易于训练和验证,提供了更大的改进空间。经过实验验证,我们的方法确实可以取得优异的效果。

参  考

[1]Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241. 

[2]Zhang, Z., Fu, H., Dai, H., Shen, J., Pang, Y., Shao, L. (2019). ET-Net: A

Generic Edge-aTtention Guidance Network for Medical Image Segmentation. In: , et al. Medical Image Computing and Computer Assisted Intervention – MICCAI 2019. MICCAI 2019.

[3]Zhang, Yifei et al. “Exploration of Deep Learning-based Multimodal Fusion for Semantic Road Scene Segmentation.” VISIGRAPP (2019).

[4]Huang H, Lin L, Tong R, et al. Unet 3+: A full-scale connected unet for medical image segmentation[C]//ICASSP 2020-2020 IEEE International 

Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 1055-1059.

Logo

昇腾万里,让智能无所不及

更多推荐