MultiRetNet：一种基于眼底彩照–OCT融合的轻量级可解释AI方法用于糖尿病视网膜病变分级与DME检测

《Journal of Imaging》：MultiRetNet: A Lightweight Explainable AI Approach to Diabetic Retinopathy Grading and DME Detection Using Fundus–OCT Fusion

【字体：大中小】 时间：2026年06月09日 来源：Journal of Imaging 3.3

编辑推荐：

　　摘要：糖尿病视网膜病变(DR)与糖尿病黄斑水肿(DME)是全球成人致盲的主要可预防因素之一，而现有自动化筛查系统通常孤立处理各疾病且仅依赖单一成像模态。研究人员提出一种深度学习模型，通过融合同一临床访视中同一眼采集的配对彩色眼底彩照与光学相干断层扫描(OCT)

摘要：糖尿病视网膜病变(DR)与糖尿病黄斑水肿(DME)是全球成人致盲的主要可预防因素之一，而现有自动化筛查系统通常孤立处理各疾病且仅依赖单一成像模态。研究人员提出一种深度学习模型，通过融合同一临床访视中同一眼采集的配对彩色眼底彩照与光学相干断层扫描(OCT)图像，同时完成DR严重程度分级与DME检测。该架构采用两个并行ImageNet预训练的EfficientNet-B0骨干，分别对应两种模态，将各自1280维特征向量拼接为2560维联合表示，经共享全连接块后分支为三分类DR分级头与二分类DME检测头。模型在私有数据集（425对眼底与OCT眼图像，共850幅图像）上训练与评估。该架构采用特征级融合，即分别从眼底与OCT图像中用独立卷积骨干提取模态特定深度特征，再拼接为联合表示用于多任务学习。在留出测试集（n=85）上，融合模型达到DR准确率82.4%（受试者工作特征曲线下面积[AUC]=0.929，宏平均灵敏度=0.81，宏平均特异度=0.905）与DME准确率97.6%（AUC=0.999，灵敏度=0.833，特异度=1.000）。融合模型检测出12例DME阳性眼中的10例，而仅用眼底或仅用OCT的基线模型均只检出7例，相当于DME灵敏度相对提升43%。分层五折交叉验证（n=425聚合预测）佐证上述结果，融合模型DR准确率87.1%（AUC=0.978），DME准确率99.1%（AUC=1.000）。梯度加权类激活映射(Grad-CAM)可视化确认眼底分支关注临床相关的黄斑病灶，OCT分支突出视网膜层破坏与视网膜下液，提供可解释性。据研究人员所知，所提出的MultiRetNet是首个轻量级、任务特定的多模态架构，通过显式特征级融合在单一端到端多任务框架内，从配对同眼同访视眼底–OCT图像联合分级DR严重程度并检测DME，区别于近期通用眼科基础模型，支持多模态融合对全面糖尿病眼病筛查的价值，尚待外部验证。

研究背景方面，糖尿病视网膜病变(DR)作为糖尿病的微血管并发症是全球成人致盲主要原因之一，临床常沿无显性视网膜病变、非增殖期糖尿病视网膜病变(NPDR)、增殖期糖尿病视网膜病变(PDR)谱系分级；糖尿病黄斑水肿(DME)定义为黄斑区视网膜增厚伴视网膜内或视网膜下液，可发生于各DR严重程度中。传统DR筛查多依赖彩色眼底彩照并由专家分级，虽成本低、可扩展，但对DME等结构改变判断不可靠；光学相干断层扫描(OCT)可提供视网膜层横截面可视化与液体积聚检测，却单一切面视野有限、难以捕捉周边血管病变。现有自动化系统通常孤立处理DR与DME且只用单一模态，多模态研究常采用决策级聚合、顺序独立模型或非配对数据，缺乏同一眼同访视配对的眼底–OCT端到端特征级融合多任务框架；加之临床采纳需可解释性，而部署于资源受限场景需轻量架构，这些共同构成该研究开展动因。研究人员开展了轻量级双分支多任务MultiRetNet架构研究，采用配对同眼同访视彩色眼底彩照与OCT B扫描，通过并行EfficientNet-B0骨干提取模态特定深度特征，在特征级拼接为联合表示后经共享全连接块再分支为三分类DR头（无DR、NPDR、PDR）与二分类DME头，联合优化加权交叉熵与加权二值交叉熵损失，并在私有数据集（孟加拉国眼科医院，424例有效配对样本来自222例患者）上评估。结论表明特征级融合模型在DR分级与DME检测上均优于单模态基线，尤其DME灵敏度相对提升43%且保持完美特异度，Grad-CAM提供模态特定可解释定位，模型参数量约9.3M适于资源受限环境；研究意义在于首次在轻量级端到端多任务框架内显式融合配对眼底–OCT做联合DR与DME评估，为综合糖尿病眼病筛查提供可解释多模态范式，论文发表于《Journal of Imaging》。

关键技术方法上，研究人员采用的主要方法包括：构建私有配对同眼同访视眼底彩照与OCT B扫描队列（来源：孟加拉国Eye Hospital and Institute Ltd.，Dhaka，共424有效配对样本，DR标注按ICDR简化为三分类，DME为二值标注）；图像预处理统一缩放到224×224，OCT单通道灰度复制为三通道，分别用ImageNet统计量（眼底）与均值0、标准差1（OCT）归一化，训练时随机水平翻转±10°旋转；骨干选择阶段对比EfficientNet-B0/B3、ResNet-18、ConvNeXt-Tiny后选定EfficientNet-B0（约5.3M参数/支）；双分支各自输出1280维特征并拼接为2560维做特征级融合，经共享全连接（2560→512，批归一化、ReLU、Dropout率0.3）后分两支线性头；多任务损失为加权三分类交叉熵（DR）加加权二值带对数交叉熵（DME），优化器为AdamW（初始学习率1e-4，权重衰减1e-2），ReduceLROnPlateau调度与早停（验证损失耐心40轮）；评估采用分层样本级拆分（约64%/16%/20%训练/验证/测试）与分层五折交叉验证（复合DR+DME标签分层），指标含准确率、宏平均灵敏度/特异度/精确率/F1、AUC、混淆矩阵、McNemar检验、2000次分层自助CI、DME阈值扫掠、校准（Brier、ECE）、预测不确定性（Shannon熵）、决策风险分析；可解释性用Grad-CAM作用于EfficientNet-B0的conv_head层分别生成双分支热图。

结果部分保留小标题并简述如下：

4.1. Held-Out Test-Set Performance（留出测试集性能）：通过在85例留出集上训练50轮得出，融合模型DR准确率82.4%（宏AUC=0.929，宏灵敏度0.81，宏特异度0.905），DME准确率97.6%（AUC=0.999，灵敏度0.833，特异度1.000）；单模态基线DR准确率相近（融合与OCT-only均为82.4%，fundus-only为80.0%），但融合DME灵敏度达83.3%（10/12）显著高于两基线（均为58.3%，7/12），且融合保持DME特异度1.000与精确率1.000，DR宏特异度（0.905）与宏召回（0.81）较平衡。

4.2. Per-Class DR Analysis（DR逐类分析）：OCT-only在无DR召回达93.2%但NPDR仅62.5%、PDR仅50.0%，因单切面OCT难捕周边血管病变；fundus-only在NPDR召回最高（81.3%）但PDR仅70.0%；融合达到最均衡表现，尤其PDR召回90.0%（9/10），无DR召回84.7%（50/59），NPDR召回68.8%（11/16），说明结构+血管特征互补提升重症识别。

4.3. Five-Fold Cross-Validation Results（五折交叉验证结果）：聚合五折预测（n=424）得融合DR准确率87.1%（AUC=0.978），DME准确率99.1%（AUC=1.000）；fusion优于fundus-only（DR85.4%、DME98.2%）与OCT-only（DR80.4%、DME97.5%）；逐类DR召回融合为无DR93.6%、NPDR91.3%、PDR94.0%，验证稳定性（DR准确率SD=0.036，DME召回SD=0.100；OCT-only波动更大，DR准确率SD=0.079）。

4.4. ROC Curve Analysis（ROC曲线分析）：DR单对其余AUC融合为无DR0.945、NPDR0.859、PDR0.983；fundus-only为无DR0.950、NPDR0.889、PDR0.953；OCT-only均较低（0.932、0.858、0.899）；DME二值AUC融合0.999、OCT-only0.991、fundus-only0.975；差异多源于判别能力而非阈值决策，DME概率区分均极优；自助CI（2000次分层）融合DME AUC 95%CI[0.993–1.000]，DR PDR CI[0.951–1.000]，证实估计稳健。

4.5. McNemar’s Statistical Comparison（McNemar统计比较）：在n=85测试集上两两比较fusion vs fundus-only与fusion vs OCT-only对DME均为fusion多正确分类4例与3例、反之0例（b>0,c=0），但χ2不显著（p>0.05）因样本小、不一致对数少；DR比较不一致数接近（fusion增益7对fundus增益5，对OCT各10），无统计显著，说明数值优势需更大外部队列确认。

4.6. Confusion Matrix Analysis（混淆矩阵分析）：DR最常见错判为NPDR误分为无DR（融合2例、fundus-only1例、OCT-only5例），最危险错判PDR误分为无DR仅融合1例、fundus-only2例、OCT-only4例；DME上融合漏2/12且零假阳性，基线均漏5/12（fundus-only还1假阳性），融合额外检出3例DME阳性对应避免延误治疗。

4.7. Training Dynamics（训练动态）：融合验证损失最小在epoch22，早停防过拟合；fundus-only验证损失自epoch15缓升示过拟合倾向；OCT-only训练损失降快但验证损失波动大、DR验证召回仅0.60–0.72间，反映单OCT切面信息有限；所有模型训练损失持续降但验证持平，合理采用验证选优与早停。

4.8. Binary Referable and Sight-Threatening DR Analysis（二值需转诊与致盲性DR分析）：由三分类导出Any-DR（无DR为负、NPDR+PDR为正）与sight-threatening DR（仅PDR为正）；融合sight-threatening DR灵敏度0.900、特异度0.973、AUC0.983[0.951–1.000]明显优于fundus-only（0.700）与OCT-only（0.300）；Any-DR三模型AUC相近（0.932–0.950），fundus-only灵敏度最高0.923、OCT-only特异度最高0.898；说明三分类输出可自然映射到临床转诊阈值。

4.9. Threshold Sensitivity, Calibration, and Predictive Uncertainty（阈值敏感性、校准与预测不确定性）：DME阈值扫掠（0.10–0.90）显示默认0.5时融合灵敏度83.3%特异度100%；降至0.30达完美灵敏度100%且特异度98.6%、F1最高0.960，说明筛查场景宜调低阈值；校准指标融合Brier=0.017、ECE=0.047均最低，概率输出可靠；DR预测Shannon熵在错误样本（均值0.636，最大类概率均值0.558）显著高于正确样本（均值0.389，最大类概率均值0.768），单侧Mann–Whitney U检验p<0.001，熵可作低置信度标记供人工复核；决策风险分析假阴性比假阳性成本比1:1至20:1均指向阈值0.30–0.50内最优（成本最优约0.30），支持临床不对称代价下调阈值。

4.10. Grad-CAM Interpretability Analysis（Grad-CAM可解释性分析）：眼底分支热图在正常眼呈视盘与后极弥漫低中激活，病变眼聚焦出血灶、硬渗出（尤黄斑区）、视盘周围新生血管区、颞血管弓等临床相关病灶；OCT分支在正常眼沿外层带均匀分布激活，DME眼集中于黄斑中心层间液性暗区、视网膜层破坏、视网膜下液、中心凹轮廓异常增厚处，与眼科医生读片依据一致；双分支热图可支持临床验证预测证据、解决分支分歧、覆盖不合理定位与优先级分诊。

讨论部分总结：研究人员指出多模态融合最核心临床价值是DME灵敏度相对提43%且保持完美特异度，对应多检3例DME阳性可能避免视力不可逆损失；PDR召回90%也得益血管（眼底）与结构（OCT）互补。单模态贡献上，眼底优在NPDR（表面血管病变可视），OCT优在无DR确认（正常层结构）与DME判别（AUC高），但单OCT切面NPDR/PDR召回低、单眼底PDR次优；融合通过特征级拼接让共享层学交叉关联（如黄斑硬渗出+囊样水肿互相印证），McNemar不一致对呈单向增益（fusion多对baseline无误减）证真实集成而非平均。与既往比，该工作在轻量端到端显式特征级融合、配对同眼同访视、联合DR三分类+DME二分类多任务、双支Grad-CAM四项并集属首次，参数量约9.3M（EfficientNet-B0每支5.3M）远低于ConvNeXt-Tiny等，适合资源受限筛查；多任务并非仅参数效率，而是计算建模临床联合评估（DR与DME共用潜在表征、标签耦合：无DR无DME、NPDR中22.6%DME、PDR中54.9%DME），共享主干成归纳偏置强化共现特征（如黄斑增厚）并抑制单任务伪相关，输出直接映射转诊流（无DR无DME→常规随访；NPDR无DME→标准转诊；任何DME→黄斑评估；PDR±DME→紧急治疗），双支Grad-CAM给临床员验证/分歧裁决/覆盖/优先级四操作支撑人–AI共协。局限含队列小（424配对，DME阳性47、PDR51）、单中心南亚人群与特定设备、样本级而非患者级拆分致同患者双眼可能分属不同集引起部分相关性、单OCT B扫描而非体积成像、DR三分类合并NPDR亚级；需外部多中心验证、更大配对数据、细分级、患者级拆分、体积OCT、融入临床元数据（年龄、HbA1c等）、CDSS集成与前瞻影响评估。结论翻译：本研究提出一种同时使用配对眼底与OCT图像、通过双分支EfficientNet-B0架构做特征级融合以同时分级DR与检测DME的多任务深度学习框架；融合模型在留出测试集上达到DR准确率82.4%（AUC=0.929）与DME准确率97.6%（AUC=0.999），五折交叉验证佐证DR87.1%（AUC=0.978）、DME99.1%（AUC=1.000）；最显著临床结果为多模态融合相对单模态基线提升DME灵敏度43%（83.3%对58.3%）且在测试集保持完美特异度；Grad-CAM证实模型关注两种模态中临床相关视网膜特征；据研究人员所知，这是首个在单一端到端多任务框架内通过显式特征级融合从配对同眼同访视眼底–OCT图像联合分级DR严重程度并检测DME的轻量级任务特定多模态架构，区别于近期通用眼科基础模型，支持多模态融合对全面糖尿病眼病筛查的价值，尚待外部验证。总之，研究表明在给定队列中配对眼底–OCT特征级融合多任务深度学习框架取得临床有意义改进，值得在更大外部多中心数据集验证以推进自动糖尿病眼病筛查。

热点排行