基于注意力的多模态深度学习在葡萄膜黑色素瘤分类中的应用:结合超广角眼底图像和眼部超声数据
《Ophthalmology Science》:Attention-Based Multimodal Deep Learning for Uveal Melanoma Classification Using Ultra-Widefield Fundus Images and Ocular Ultrasound
【字体:
大
中
小
】
时间:2025年10月28日
来源:Ophthalmology Science 4.6
编辑推荐:
本研究开发并评估了一种结合超宽视野眼底摄影和B-型超声的多模态深度学习模型,用于自动分类眼葡萄膜黑素瘤和色素痣。通过五折交叉验证,发现单独使用横切面超声模型表现最佳(准确率92%),而结合两种模态并应用注意力机制(CBAM)的融合模型准确率提升至94%,AUC达0.9606,有效整合了眼底二维结构与超声深度信息。结论表明多模态学习可提高诊断一致性,但需更大样本和更多模态验证。
在医学影像分析领域,人工智能技术的应用正在迅速发展,为多种疾病的诊断和分类提供了新的可能性。特别是在眼科疾病的研究中,深度学习模型已经展现出在检测和分类如糖尿病视网膜病变、年龄相关性黄斑变性和青光眼等疾病方面的强大能力。然而,对于一些具有复杂病理特征的疾病,例如脉络膜黑色素瘤(Uveal Melanoma, UM)和脉络膜痣(Choroidal Nevi),传统的单模态影像分析可能无法全面捕捉病变的特征,从而影响诊断的准确性。因此,研究人员开始探索将多种影像数据进行融合,以提高分类性能和诊断可靠性。
本研究的目标是开发并评估一种深度学习模型,该模型结合了超广角视网膜摄影和B型超声成像技术,用于对脉络膜黑色素瘤和脉络膜痣进行自动分类。通过将不同模态的影像数据整合在一起,研究人员希望提高模型对这两种病变的区分能力,从而在临床实践中提供更加可靠的辅助诊断工具。研究采用了回顾性横断面研究设计,分析了174名患者的影像数据,其中包括93例脉络膜黑色素瘤和81例脉络膜痣。这些患者均在一家三级眼科中心接受诊断和评估,最终的诊断结果由一位受过专业培训的眼科肿瘤学专家基于多种临床检查手段得出,包括眼底镜检查、超声成像、超广角视网膜摄影、视网膜自荧光、光学相干断层扫描(OCT)以及荧光素血管造影。
为了构建深度学习模型,研究团队采用了EfficientNetV2-S作为基础卷积神经网络(CNN)架构,并利用了预训练的ImageNet权重以实现迁移学习。这种设计有助于模型在数据量有限的情况下,仍然能够获得良好的性能表现。在训练过程中,数据增强技术被广泛应用,包括水平和垂直翻转、旋转等操作,以提高模型的泛化能力和减少过拟合的风险。模型的训练过程采用了Adam优化器,并设置了0.0001的学习率和32的批次大小,以确保训练的稳定性和效率。为了防止过拟合,研究团队还实施了检查点策略,保存模型在验证损失最低时的权重。
在模型评估方面,研究采用了五折交叉验证方法,确保了结果的可靠性和稳定性。每个折叠中,80%的影像数据用于训练,20%用于验证,同时保证了所有单模态和融合模型使用相同的折叠划分方式,从而避免了数据泄露的风险。最终的模型性能是通过对所有五个折叠的性能指标进行平均计算得出的。评估指标包括准确率、F1分数和受试者工作特征曲线下面积(AUC-ROC)。准确率用于衡量模型正确分类的实例比例,F1分数则综合考虑了模型的精确率和召回率,以评估其在类别不平衡情况下的整体表现。AUC-ROC则反映了模型在不同分类阈值下区分脉络膜黑色素瘤和脉络膜痣的能力。
研究结果显示,单模态模型中,基于横向B型超声图像的模型表现最佳,其平均准确率为92%,F1分数为0.9227,AUC为0.9538。相比之下,基于纵向B型超声图像的模型表现稍逊,其平均准确率为90%,F1分数为0.9042,AUC为0.9323。而基于超广角视网膜摄影的模型表现最弱,平均准确率为87%,F1分数为0.8722,AUC为0.8937。这些结果表明,B型超声图像在捕捉肿瘤厚度和内部反射特性方面具有显著优势,这些信息在超广角视网膜摄影中无法获得。
为了进一步提升模型的分类性能,研究团队尝试了两种多模态融合策略:预测概率平均和基于注意力机制的特征级融合。预测概率平均方法通过将各个单模态模型的预测结果进行平均,以期获得更稳定的分类输出。然而,这种方法在某些情况下仍可能导致误分类,特别是在单个模态的预测结果存在冲突的情况下。例如,在某些案例中,即使其中一个模态的预测结果正确,平均后的结果可能仍然偏向错误类别。这说明,简单的平均策略可能无法有效整合不同模态之间的互补信息。
相比之下,基于注意力机制的特征级融合方法表现更为优越。该方法首先利用CBAM(卷积块注意力模块)对各个模态的特征图进行优化,然后将这些优化后的特征图进行拼接,再通过全连接层进行最终分类。这种策略不仅提高了模型的准确率(达到94%),还显著提升了F1分数(0.9445)和AUC(0.9606)。通过赋予不同特征更高的权重,注意力机制能够更有效地整合来自不同模态的信息,从而提高分类的可靠性。
在讨论部分,研究团队指出,将多种影像数据进行融合对于提高脉络膜黑色素瘤和脉络膜痣的分类性能具有重要意义。单模态分析可能无法全面捕捉病变的特征,而多模态融合则能够提供更丰富的信息,有助于更准确地区分两种病变。此外,研究还提到,尽管超广角视网膜摄影在表面特征的捕捉方面具有优势,但其在提供三维结构信息方面的不足可能限制了其诊断能力。因此,结合B型超声图像能够更好地反映肿瘤的深度和内部结构,从而提高诊断的准确性。
然而,研究也指出了其存在的局限性。首先,数据集来自单一的三级眼科中心,这可能影响模型在更广泛人群中的适用性。其次,数据集的规模相对较小,这可能限制了模型的泛化能力。此外,研究中使用的地面真实标签是基于眼科肿瘤学专家的临床诊断,而非必须的长期随访,这可能影响诊断的确定性。研究还提到,当前模型在区分尺寸相近的脉络膜黑色素瘤和脉络膜痣方面仍有提升空间,因此未来的研究应关注尺寸匹配的病变数据集,以更严格地测试模型的分类能力。最后,虽然本研究聚焦于超广角视网膜摄影和B型超声成像,但其他影像技术如OCT或视网膜自荧光可能提供额外的诊断价值,这些技术尚未被纳入研究范围。因此,未来的多中心研究应考虑包含更多样化的影像数据,并进行前瞻性研究以评估模型在真实临床环境中的应用效果。此外,结合临床历史数据、基因组标记等其他信息可能进一步提高模型的分类性能,并为个性化风险评估提供支持。
总的来说,本研究通过整合超广角视网膜摄影和B型超声成像数据,开发了一种深度学习模型,用于脉络膜黑色素瘤和脉络膜痣的自动分类。研究结果表明,多模态融合方法能够显著提升模型的分类性能,特别是在区分这两种具有相似特征的病变方面。尽管研究仍存在一些局限性,但其为未来多模态影像分析在眼科疾病诊断中的应用提供了重要的参考和启示。随着数据集的扩展和多模态技术的不断进步,这种深度学习模型有望在临床实践中发挥更大的作用,提高诊断的准确性和一致性,从而改善患者的治疗预后。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号