
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GMS-JIGNet:基于多尺度拼图引导自监督学习的眼底图像人工伪影分割新方法
【字体: 大 中 小 】 时间:2025年07月17日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对眼底摄影中因灰尘和传感器噪声产生的人工伪影易被误诊为病理性特征(如微动脉瘤)的问题,提出GMS-JIGNet框架。该研究通过多尺度拼图引导和对比学习的自监督策略,在仅需少量标注数据(300张训练图像)的条件下,实现了人工伪影的精准分割(IoU达0.873,DICE达0.928),显著优于现有U-Net等模型。其创新性在于:1)通过解剖学引导的拼图任务增强空间表征学习;2)结合ViT编码器与轻量FPN解码器的跨尺度特征融合。该成果为临床中标注资源有限的眼底图像质量控制提供了高效解决方案,相关代码与数据集已开源。
在眼科临床诊断中,眼底摄影因其无创、低成本的优势成为筛查糖尿病视网膜病变等疾病的首选手段。然而,镜头灰尘或传感器噪声产生的微小人工伪影(10-125μm)常与真实病变(如微动脉瘤)混淆,导致高达12%的图像被误判。传统解决方案依赖大规模标注数据或物理清洁设备,但前者受限于医学标注的高成本,后者难以满足临床快速成像需求。如何在不依赖海量标注的情况下实现精准伪影分割,成为提升AI辅助诊断可靠性的关键瓶颈。
针对这一挑战,韩国釜山国立大学(Pusan National University)电气电子工程系的Jaehan Joo、Hunyoul Lee和Suk Chan Kim团队在《Scientific Reports》发表研究,提出GMS-JIGNet框架。该工作创新性地将多尺度拼图解谜与对比学习结合,通过三个核心技术突破:1)4×4/8×8/16×16三级拼图尺度下的解剖学引导机制,选择性保留视网膜黄斑、视盘等关键区域的空间线索;2)ViT编码器与FPN解码器的异构架构设计,实现自监督预训练特征向分割任务的高效迁移;3)联合InfoNCE对比损失与交叉熵拼图损失的优化策略。实验证明,该方法在4909张测试图像上达到0.9947的SSIM值,且对病变重叠伪影的区分能力显著优于传统U-Net(MAE降低6.3%)。
关键技术方法包括:1)使用APTOS2019、自建YPNUH(4037张)和SMDG(12,449张)数据集进行无监督预训练;2)构建基于ViT的共享编码器处理多尺度拼图,通过强度阈值(0.1)筛选信息性区域;3)下游任务采用三编码器特征融合策略,从ViT第5/7/11层提取多级特征;4)评估指标涵盖IoU、DICE、PSNR等5类指标。
研究结果
预训练任务性能:与传统拼图相比,引导式多尺度拼图的排列分类准确率从0.9201提升至0.9957(表2)。图6直观展示模型在16×16高分辨率拼图中成功重建复杂视网膜血管结构的能力。
下游分割性能:在ASD数据集上,多编码器版本的GMS-JIGNet以0.8728 IoU和0.001482 MAE(表3)超越所有基线模型。图7显示其对边界模糊伪影的捕捉优势,尤其在硬性渗出物周边(图8a)表现突出。
消融实验:AdamW优化器(表8)、非冻结编码器(表10)及对比-拼图损失1:1配比(表12)被证实为最优配置。小批量(batch=2)训练使指标标准差降低至0.0333(表17),显著提升稳定性。
结论与意义
该研究首次将解剖学先验融入自监督学习框架,解决了高分辨率医学图像中细微伪影的标注依赖问题。临床价值体现在:1)模型仅需300张标注即可达到SOTA性能,适合标注资源匮乏的基层医院;2)0.1秒的单图推理速度满足实时质控需求。局限性在于对明亮视盘中心伪影的区分不足,未来可通过亮度归一化改进。这项工作为医学图像的自监督学习提供了新范式,其多尺度特征融合策略可扩展至CT、MRI等多模态数据的分割任务。
(注:全文严格依据原文数据,未添加非文献内容;专业术语如InfoNCE、FPN等在首次出现时标注解释;机构名称按国际惯例翻译;图表标识已转换为文字描述但保留数据准确性)
生物通微信公众号
知名企业招聘