
【医学影像 AI】使用 MultiCNN_LSTM 分类器对 ROP 疾病分期分类
论文 “使用 MultiCNN_LSTM分类器对 ROP 的 1、2、3 期及 Pre-plus、Plus 疾病进行分类”。本研究提出一种 MultiCNN_LSTM 网络,使用多个卷积神经网络(CNN)提取特征,并结合长短期记忆(LSTM)分类器对图像进行分类。
【医学影像 AI】使用 MultiCNN_LSTM 分类器对 ROP 疾病分期分类
0. 论文简介
0.1 基本信息
2025年 1月,印度 MIT-WPU 的 Ranjana Agrawal 等在 MethodsX 发表论文 “使用 MultiCNN_LSTM分类器对 ROP 的 1、2、3 期及 Pre-plus、Plus 疾病进行分类(Classification of Stages 1,2,3 and Preplus, Plus disease of ROP using MultiCNN_LSTM classifier)”。
本研究提出一种 MultiCNN_LSTM 网络,使用多个卷积神经网络(CNN)提取特征,并结合长短期记忆(LSTM)分类器对图像进行分类。使用 MultiCNN_LSTM 网络对 ROP 疾病的 1期、2期、3期进行分期分类,并识别 Pre-plus、Plus 疾病,其准确性优于单独的CNN和CNN_LSTM网络。
论文下载: sciencedirect
引用格式:
Ranjana Agrawal, Sucheta Kulkarni, Madan Deshpande, et al. Classification of Stages 1,2,3 and Preplus, Plus disease of ROP using MultiCNN_LSTM classifier, MethodsX, Vol.14, 2025, 103182,
ISSN 2215-0161, https://doi.org/10.1016/j.mex.2025.103182.
0.2 摘要
早产儿视网膜病变(ROP, Retinopathy of prematurity)是一种影响早产儿视网膜的疾病,可能导致视力丧失甚至失明。低出生体重是ROP的主要风险因素之一。早期发现和干预是防止ROP相关失明的关键。
在检查高危婴儿的视网膜图像时,准确识别病变的分期以及是否存在Plus疾病是非常重要的。我们正在为 HVDROPDB 数据集开发一种可解释的自动化 ROP 筛查系统。通过分割视网膜脊线,将眼底图像分类为无分期(正常)/有分期(ROP)。使用机器学习(ML)模型对1期、2期和 3期进行分类。
-
本研究旨在通过使用MultiCNN_LSTM网络提高1-3期分类的准确性,并识别 Preplus 和 Plus 疾病。这是通过使用多个卷积神经网络(CNN)提取特征,并结合长短期记忆(LSTM)分类器对图像进行分类来实现的。
-
使用 RetCam 和 Neo 图像构建了裁剪后的 STAGE 数据集和 HVDROPDB-PLUS 数据集。
-
所提出的网络在准确率和F1分数方面优于单独的 CNN 和 CNN_LSTM 网络。
1. 背景
早产儿视网膜病变(ROP, Retinopathy of prematurity)是一种导致低体重早产儿失明的视网膜疾病。它通过三个区域、五个分期、范围以及视网膜的 Plus疾病来描述。这些特征通过视网膜结构(如视盘、分界线、脊线和血管)来检测。当急性 ROP 血管特征在血管化和无血管视网膜交界处发展时,被称为“分期”。Pre-plus和Plus疾病通过后部视网膜(特别是Zone I)内血管的扩张和迂曲程度来确定[1, 2]。如果及时发现,ROP可以治疗,从而避免婴儿失明。基于间接检眼镜(Indirect ophthalmoscope-based screening)的筛查由眼科医生执行,是 ROP 诊断的金标准。然而,ROP专家的数量不足,且在疾病分级方面存在较大的观察者间差异。此外,农村或偏远地区缺乏医疗专家,导致诊断延迟。
通过开发可解释的自动化ROP诊断系统,可以显著提高ROP筛查的效率和准确性,特别是在资源有限的地区。这些系统的开发旨在节省眼科医生的时间并减少主观差异[3]。自动化ROP筛查系统利用机器学习(ML)和深度学习(DL)网络对ROP进行分类,检测Plus疾病、ROP分期并预测ROP严重程度评分[4, 5]。DeepSHAP方法用于检测ROP分期、眼内出血和Pre-plus/Plus疾病,并提供诊断解释[6]。为了对ROP 1-5期进行分类,提取了脊线特征,并使用ResNet18、DenseNet121和EfficientNetB2进行组合,然后通过分类器进行分类[7]。CNN[8]和LSTM[9]模型的结合被用于医学图像分类,利用其深度时空能力。CNN和LSTM网络的串联被用于从眼底图像中检测白内障[10]和年龄相关性黄斑变性(AMD)[11]。
现有基于AI的ROP系统存在以下问题:(1)ROP 数据集依赖于RetCam拍摄的图像,且这些数据集未公开。在印度,Neo成像系统因其经济性和便携性而更受ROP筛查的青睐。(2)1-3期分类的准确性需要提高。
我们一直在基于HVDROPDB数据集开发一种可解释的ROP诊断自动化系统[12],该数据集包含RetCam 和 Neo 图像。在早产儿后部眼底图像中根据视盘和黄斑对 Zone I、II 和 III 进行了解释[13]。通过分割视网膜中的分界线或脊线和血管来检测分期[14]。如果未检测到脊线,则图像被识别为正常。使用一种结合ML-DL网络的新方法对1-3期进行分类和解释[15]。
为了进一步提高分期分类的准确性,并对Pre-plus、Plus和正常图像进行分类,我们提出了一种基于 MultiCNN_LSTM 网络的新方法。
注释:
ROP 分期与Plus疾病:
分期:ROP 基于视网膜血管异常的程度分期,用于描述疾病的严重程度,1期为最轻,5期为最严重。
Plus 疾病是ROP的一种严重形式,表现为视网膜血管异常扩张和扭曲,通常伴随疾病进展。
Pre-plus 疾病是Plus疾病的早期阶段,血管异常尚未达到 Plus疾病的标准。
2. 方法
2.1 数据集的准备
本研究创建了两个数据集:
- Cropped STAGE 分期数据集:
分期由分界线或脊线描述,这些区域在图像中占据非常小的区域。
Cropped STAGE 数据集 是从 HVDROPDB-STAGE(STAGE)数据集 中提取的,包含脊线区域的图像。该数据集包含138 张 ROP-1 期图像、146 张 ROP-2期图像和 139 张 ROP-3期图像。
处理过程 如图 1 所示。
(1)使用 Attention Gate (AG) U-Net 从眼底图像中分割出脊线。
(2)通过图像轮廓检测,在原始图像上用矩形标记出脊线占据的区域[16]。
(3)然后裁剪标记区域以创建脊线图像块,并保存为 Cropped STAGE数据集。
- HVDROPDB-PLUS数据集:
包含 61张 Pre-plus 图像、65张 Plus 疾病图像和 65张早产儿正常眼底图像。
Plus疾病通过遍布整个图像的血管来识别,因此不需要裁剪数据集。
在研究过程中,通过添加更多图像对 HVDROPDB-STAGE 和 HVDROPDB-PLUS 数据集进行了扩展。
- HVDROPDB-STAGE-NEW 数据集 扩展为 170张1期图像、171张2期图像和172张3期图像。
- HVDROPDB-PLUS-NEW 数据集 扩展为 126张正常图像、129张Plus疾病图像和114张Pre-plus图像。
由于时间的限制,没有生成用于准备裁剪数据集的掩码。
所有数据集按 70:10:20 的比例随机分为训练集、验证集和测试集。
2.2 特征提取
特征提取的目的,是通过提取图像中的关键特征(如脊线),为ROP分期分类提供输入数据。
- 无分期:如果在分割过程中未识别到脊线,图像将被分类为“无分期”(without STAGE)图像。
- 有分期:对于分类为“有分期”(with STAGE)的图像,提取脊线特征。
这些特征通过多个预训练的CNN(卷积神经网络)提取,并组合起来用于训练DNN(深度神经网络)或LSTM分类器。
用于分期分类的特征集包括:
- 从 Cropped STAGE数据集 中提取的特征;
- 从 Cropped STAGE数据集 和 Original STAGE数据集 中提取的组合特征。
选择的预训练网络(如InceptionV3[17]、Xception[18]和ResNet152[19])兼容大小为299×299的输入图像。每个预训练网络生成大小为 N×2048 的特征向量,其中 N 为图像数量。
### 2.3 InceptionV3、Xception和ResNet152
Inception 模型由Google于2014年提出,通过优化卷积层结构和引入辅助分类器,降低了计算成本并提高了性能。包含 42层,主要特点是:
- 通过分解卷积层并引入非对称卷积来降低计算成本。
- 使用带有批量归一化的辅助分类器来解决梯度消失问题。
- 通过扩展滤波器维度来减小网格尺寸。
- 还加入了RMSProp优化器和标签平滑技术。
Xception 意为“极端的Inception”,通过使用深度可分离卷积代替 Inception 模块,进一步提高了准确性。。Xception 的准确性有所提高,但模型大小与 InceptionV3 相同。Xception 与 Inception 模型之间的两个微小区别是:
- 在 Inception 中先进行1×1卷积,再进行通道空间卷积;而在 Xception 中,先进行通道空间卷积。
- 在 Inception 中,第一次操作后应用 ReLU 非线性函数,而 Xception 在没有非线性的情况下执行。
ResNet(残差网络)是为了解决梯度消失问题而开发的。通过堆叠残差块和跳跃连接的设计,使模型更易于训练,并能够构建更深的网络。ResNet-50、ResNet-101 和 ResNet-152 是基本 ResNet-34架构的改进版本。ResNet 更易于训练,并能显著提高准确性。
2.3 ROP 1-3期的分类
ROP的分期(1-3期)是诊断和治疗的重要依据。由于缺乏公开的 ROP 数据集进行比较,本研究使用单独的预训练 CNN 模型进行分类。
使用预训练的CNN模型(Xception、InceptionV3 或 ResNet152)从 Original STAGE数据集和 Cropped STAGE数据集 中提取特征,输入到 DNN 分类器中进行训练。每个数据集生成的特征向量大小为 N×2048,组合后为N×4096。
DNN 分类器由一个展平层(Flatten Layer)和两个具有ReLU激活函数的全连接层(Dense Layer)组成,最后通过 Softmax 激活层将输出分类为三类,如图2 所示。
2.4 MultiCNN-DNN模型
MultiCNN-DNN 模型使用上述三个预训练网络(Xception、InceptionV3 和 ResNet152)分别从 Cropped STAGE 数据集 和 Original STAGE数据集中提取特征。
每个网络生成的特征向量大小为 N×2048,3个网络的特征被拼接成为 N×12,288的特征向量,用于训练DNN分类器,如图 3 所示。
2.5 MultiCNN-LSTM模型
在 CNN_LSTM 网络中,CNN 从图像中提取关键特征并将其转换为固定长度的向量(绕过全连接层),而 LSTM 负责分类。
LSTM 是一种特殊的循环神经网络(RNN),能够长期存储信息。LSTM 通过记忆块(Memory Blocks)解决了梯度消失和梯度爆炸的问题。LSTM 的基本组成部分包括细胞状态(Cell State)和门控机制(Gates)。LSTM可以通过门控机制向细胞状态中添加或删除信息。信息通过门控机制传递。LSTM包 含三个门:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。输入门决定将多少新信息添加到当前细胞状态中;遗忘门决定从细胞状态中删除哪些信息;输出门决定哪些信息应该输出。
对于 Xception/InceptionV3/ResNet152_LSTM 网络,特征按序列排列,大小为 N×2×2048,如图 4 所示。LSTM 分类器包含两个 LSTM层,随后是一个 Dropout层、两个具有 ReLU激活函数的全连接层,以及一个具有 Softmax 激活函数的输出层。
对于MultiCNN-LSTM 网络,特征向量的大小为 N×6×2048,如图 5 所示,用于训练 LSTM 分类器。MultiCNN-LSTM模型结合了CNN(卷积神经网络)和LSTM(长短期记忆网络)的优势,能够同时捕捉图像的空间特征和时间序列特征,从而提高分类的准确性。
2.6 Pre-plus、Plus与正常图像的分类
上述所有模型均在 HVDROPDB-PLUS数据集 的单一特征集上运行,因为该数据集不包含裁剪集。因此,MultiCNN_DNN模型 的特征向量大小为N×1×6144,而 MultiCNN_LSTM模型的特征向量大小为 N×3×2048,分别如图6 和图7 所示。
3. 方法的验证
实验在 NVIDIA GEFORCE GTX GPU上运行,使用 TensorFlow 2.4 和 Keras API。
HVDROPDB-STAGE数据集 包含大小为 640×480 的 RetCam 图像和大小为 2040×2040 的Neo图像。Cropped STAGE数据集中创建的脊线图像块大小因脊线区域而异,所有图像均调整为256×256×3并进行了预处理。
模型使用Adam优化器、分类交叉熵损失函数和学习率0.001进行训练。全连接层使用的节点数为1024。所有模型的数据集划分均使用随机种子42。
基于分类评估参数对所有模型进行比较,包括:准确率、F1分数、混淆矩阵和ROC值。
评估指标解读:
准确率:模型正确分类的比例。
F1分数:精确率和召回率的调和平均值,用于衡量分类的平衡性。
混淆矩阵:展示模型分类结果的详细情况,包括正确分类和错误分类的数量。
ROC值:接收者操作特征曲线下面积,用于衡量分类器的性能。
3.1 分期分类验证
表1 展示了所有模型在 Cropped STAGE数据集 以及 STAGE数据集 和 Cropped STAGE数据集 组合上的分期分类结果。
对于所有网络,STAGE数据集 和 Cropped STAGE数据集 组合特征的准确率和F1分数均优于仅使用 Cropped STAGE数据集 的结果。
图8 展示了 STAGE数据集 和 Cropped STAGE数据集 组合的准确率。
提出的 MultiCNN_DNN 和 MultiCNN_LSTM 模型在分类1期、2期和3期时提供了最高的准确率(93%)和最佳的F1分数。MultiCNN_DNN 在分类1期、2期和3期时的 F1分数分别为 0.97、0.92和0.88,而 MultiCNN_LSTM 的F1分数分别为 0.97、0.90和0.90。
图9 展示了 MultiCNN_DNN 和 MultiCNN_LSTM 在分类1期、2期和 3期时的ROC值。
MultiCNN_DNN 的ROC值分别为1.00、0.99和0.98,而 MultiCNN_LSTM 的ROC值分别为0.99、0.98和0.98。ROC值接近 1,表明模型具有很高的分类性能
图10a 和10b 分别展示了 MultiCNN_DNN 和 MultiCNN_LSTM 的混淆矩阵。
在 MultiCNN_DNN 中,35张 1期图像中有 2张被分类为3期;1张 2期图像被分类为3期;3张 3期图像被分类为2期。这一现象也适用于 MultiCNN_LSTM。
错误分类的原因可能是图像标注时的优先级问题,严重分期被优先标记。例如,如果图像中同时存在 2期和3期特征,则被标记为3期。
3.2 扩展数据集的分期分类验证
在 STAGE数据集 和扩展的 STAGE数据集 的眼底图像上进行分期分类,验证模型在扩展数据集上的性能,以评估其泛化能力和鲁棒性。
表现最佳的 MultiCNN_DNN 和 MultiCNN_LSTM 模型的性能结果如表2 和图11 所示。MultiCNN_DNN 在扩展的 STAGE数据集 上表现最佳,在分类1期、2期和 3期时获得了最高的测试准确率(90%)以及F1分数(0.87、0.94和0.89)。MultiCNN_LSTM 的评估指标随着图像数量的增加也有所提高。
裁剪数据集通过从眼底图像中分割脊线创建。目前,我们正在为扩展数据集准备真实标签(ground truths),以训练用于脊线分割的U-Net模型。
3.3 Pre-plus/Plus 的分类
所有模型在 HVDROPDB-PLUS数据集 上对Pre-plus、Plus或正常图像分类的结果如表3所示,测试准确率对比如图12所示。
与其他网络相比,MultiCNN_DNN 网络在所有参数上均取得了最高值,它在分类Pre-plus、Plus或正常图像时的准确率为87%,F1分数分别为0.81、0.9和0.91。MultiCNN_DNN 的ROC值分别为0.93、0.96和0.99,如图13所示。如表3 所示,MultiCNN_LSTM 的参数与 MultiCNN_DNN 接近。
混淆矩阵如图14所示。
模型能够成功区分正常图像和Plus图像,没有正常图像被错误分类为Plus。
然而,在Pre-plus分类上存在一定的错误分类。在假阳性情况下,Plus图像被错误分类为Pre-plus,正常图像也被错误分类为Pre-plus。这种错误分类可能源于主观标注的变异性,可以通过增加数据集规模来改善。
3.4 扩展数据集 Pre-plus/Plus 的分类
所有模型在扩展的 HVDROPDB-PLUS数据集 上对 Pre-plus、Plus或正常图像分类的结果如表4所示。
MultiCNN_DNN 和 MultiCNN_LSTM 的混淆矩阵如图15所示。MultiCNN_DNN 网络表现最佳,准确率为85%,F1分数分别为0.74(Pre-plus)、0.85(Plus)和0.93(正常)。
未来的工作将集中在ROP专家的帮助下分析和改进这些结果。
4. 讨论
ROP的早期诊断通过及时治疗有助于控制疾病。
在本研究中,提出了一种新方法,结合预训练CNN提取的特征来训练LSTM,用于分类ROP的1期、2期、3期以及Pre-plus/Plus疾病。通过使用 Xception、InceptionV3 和 ResNet152 网络提取特征,DNN/LSTM 融合这些特征对1期、2期、3期以及Pre-plus/Plus疾病进行分类。
使用了 HVDROPDB-STAGE 和 HVDROPDB-PLUS 数据集,这些数据集包含RetCam和Neo图像。对不同数据集的单独和组合CNN模型的实验结果进行了评估和比较。
MultiCNN_DNN 和 MultiCNN_LSTM 模型在 HVDROPDB数据集 上为分期和Plus分类提供了最先进的结果。ROP专家已验证了这些结果。
- 在 HVDROPDB-STAGE数据集 上,MultiCNN_DNN 和 MultiCNN_LSTM 模型获得的准确率、F1分数和ROC值均达到最高(93%)。
- 在 HVDROPDB-PLUS数据集 上,MultiCNN_DNN 在Pre-plus/Plus/正常图像分类中取得了所有参数的最高值。
当前的工作包括:
- 扩展 HVDROPDB-STAGE 和 HVDROPDB-PLUS 数据集,为新图像准备真实标签,并重新训练U-Net模型。
- MultiCNN_DNN 和 MultiCNN_LSTM 模型在这些数据集上表现出最佳的分期和Plus分类性能,评估参数也有所提高。
- 观察到 MultiCNN_DNN 和 MultiCNN_LSTM 模型在扩展的 STAGE 和 PLUS 数据集上表现最佳。
这项工作可以与区域解释和分期检测工作结合,以解释ROP诊断。它将有助于减少医学专家的筛查工作量并降低诊断的变异性。
5. 局限性
关键的局限性是数据仅来自印度人口的单一地区。如果有更多研究人员贡献数据,系统的性能可能会更具普适性。
未来的工作将集中在扩展数据集、减少假阳性和假阴性病例,并根据第三版ROP国际分类标准(ICROP)推广算法。
6. 数据
数据使用的是 非公开(confidential)信息。
从参加医院筛查计划的早产患儿身上获得的图像被匿名使用(不透露身份)。在筛查ROP之前,获得了患儿父母关于将数据用于质量保证和研究目的的书面知情同意。
7. 参考文献
- International Committee for the Classification of Retinopathy of Prematurity, The international classification of retinopathy of prematurity revisited, Archives of Ophthalmology (Chicago, Ill.: 1960) 123 (7) (2005) 991.
- M.F. Chiang, G.E. Quinn, A.R. Fielder, S.R. Ostmo, R.P. Chan, A. Berrocal, A. Zin, International classification of retinopathy of prematurity, Ophthalmology 128(10) (2021) e51–e68 .
- R. Agrawal, M. Agrawal, S. Kulkarni, K. Kotecha, R. Walambe, Quantitative analysis of research on artificial intelligence in retinopathy of prematurity, Library Philosop. Practice (2021) 1–29 Available from https://digitalcommons.unl.edu/libphilprac/5342 .
- Jafarizadeh, A., Maleki, S.F., Pouya, P., Sobhi, N., Abdollahi, M., Pedrammehr, S., & Acharya, U.R. (2024). Current and future roles of artificial intelligence in retinopathy of prematurity. arXiv preprint arXiv:2402.09975.
- E. K ı ran Yenice, C. Kara, Ç.B. Erda ş, Automated detection of type 1 ROP, type 2 ROP and A-ROP based on deep learning, Eye (2024) 1–5 .
- J. Wang, J. Ji, M. Zhang, J.W. Lin, G. Zhang, W. Gong, C.P. Pang, Automated explainable multidimensional deep learning platform of retinal images for retinopathy of prematurity screening, JAMA network open 4 (5) (2021) e218758 -e218758 .
- Peng, et al., Automatic staging for retinopathy of prematurity with deep feature fusion and ordinal classification strategy, IEEE Trans Med Imaging 40 (7) (2021)1750–1762 Jul, doi:10.1109/tmi.2021.3065753 .
- A. Krizhevsky, I. Sutskever, G.E. Hinton, Imagenet classification with deep convolutional neural networks, in: Advances in Neural Information Processing Systems, 2012, pp. 1097–1105 .
- S. Hochreiter, J &Schmidhuber, Long short-term memory, Neural Comput 9 (8) (1997) 1735–1780 .
- Padalia, D., Mazumdar, A., & Singh, B. (2022). A CNN-LSTM combination network for cataract detection using eye fundus images. arXiv preprint arXiv:2210.16093.
- M.A. Ali, M.S. Hossain, M.K. Hossain, S.S. Sikder, S.A. Khushbu, M. Islam, AMDNet23: hybrid CNN-LSTM deep learning approach with enhanced preprocessing for age-related macular degeneration (AMD) detection, Intelligent Syst. Appli. 21 (2024) 200334 .
- R. Agrawal, R. Walambe, K. Kotecha, A. Gaikwad, C.M. Deshpande, S. Kulkarni, HVDROPDB datasets for research in retinopathy of prematurity, Data Brief 52(2024) 109839, doi:10.1016/j.dib.2023.109839 .
- R. Agrawal, S. Kulkarni, R. Walambe, K &Kotecha, Assistive framework for automatic detection of all the zones in retinopathy of prematurity using Deep learning, J Digit Imaging (2021) 1–16, doi:10.1007/s10278-021-00477-8 .
- R. Agrawal, S. Kulkarni, R. Walambe, et al., Deep dive in retinal fundus image segmentation using deep learning for retinopathy of prematurity, Multimed Tools Appl (2022), doi:10.1007/s11042-022-12396-z .
- R. Agrawal, S. Kulkarni, A. Gaikwad, C.M. Deshpande, K. Kotecha, R. Walambe, Deep learning framework for classification and explanation of early ROP stages from HVDROPDB dataset, in: 2024 International Conference on Advancements in Smart, Secure and Intelligent Computing (ASSIC), IEEE, 2024, pp. 1–6 .
- R. Hemalatha, T. Thamizhvani, A.J. Arockia, J.E. Joseph, B. Babu, R &Chandrasekaran, Active contour based segmentation techniques for medical image analysis, Medical and Biological Image Analysis In (Ed.), IntechOpen, 2018, doi:10.5772/intechopen.74576 .
- C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, A. Rabinovich, Going deeper with convolutions, in: Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9 .
- F. Chollet, Xception: deep learning with depthwise separable convolutions, in: Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1251–1258. https://arxiv.org/abs/1610.02357 .
- K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778 . 11
版权说明:
本文由 youcans@xidian 对论文 Classification of Stages 1,2,3 and Preplus, Plus disease of ROP using MultiCNN_LSTM classifier 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。
youcans@xidian 作品,转载必须标注原文链接:
【医学影像 AI】使用 MultiCNN_LSTM 分类器对 ROP 疾病分期分类(https://youcans.blog.csdn.net/article/details/146133818)
Crated:2025-03
更多推荐
所有评论(0)