面向干眼诊断的多中心像素级泪河分割数据集:多模态成像与人工智能应用新突破

《Scientific Data》:Multicentre Pixel-Level Tear Meniscus Segmentation Dataset with Multimodal Imaging for Dry Eye Diagnosis

【字体: 时间:2025年12月24日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决干眼诊断中泪河高度(TMH)人工测量主观性强、效率低的问题,研究人员开展了多中心像素级泪河分割数据集的构建研究。该研究整合了来自中国五家中心的1,693张彩色模态和1,739张红外模态图像,并利用人机交互标注方法生成了高质量的像素级分割标签。结果表明,该数据集标注一致性高(组内MIoU达0.9941),并能有效支持多种AI模型(如UNet、DeepLabV3+)实现精准泪河分割(MIoU最高0.9279)。此公开数据集为开发标准化、自动化的干眼诊断工具奠定了基础,有力推动了眼科人工智能研究。

  
干眼,作为一种全球范围内高发的眼部疾病,其本质是泪液质与量以及流体动力学的异常,常常导致患者眼部不适、视力波动甚至眼表损伤。在亚洲人群中,由于种族和环境因素的影响,干眼的患病率可能高达其他人种的1.5至2.2倍,不仅严重影响患者的生活质量,也带来了沉重的社会经济负担。因此,干眼的早期精准诊断至关重要。在干眼的病理机制中,眼表泪膜稳态的失衡是核心环节,而量化泪液分泌则是诊断的关键步骤。其中,泪河高度(Tear Meniscus Height, TMH),尤其是下泪河高度,作为一个可重复、标准化的生物标志物,能够直接反映泪液容量,为评估干眼严重程度和监测治疗效果提供了重要依据。
然而,传统的TMH测量方法,如裂隙灯估测法(无论是否使用荧光素染色),往往存在主观性强、稳定性与可重复性差的问题。尽管光学相干断层扫描(OCT)和Keratograph 5M(K5M)等现代设备提供了更先进的评估手段,但前者耗时且依赖专用设备,后者仍需检查者手动选择泪河区域进行测量,对操作者技能要求高,且在繁重的门诊工作量下难以保证结果的准确性。
正是在这样的背景下,人工智能(Artificial Intelligence, AI)技术展现出巨大潜力。AI在图像识别方面的卓越能力,使其在翼状胬肉筛查、早期圆锥角膜检测等领域已取得显著成果。对于TMH评估这种单一且重复性的任务,基于AI的自动分割与评估模型有望大幅降低人为误差,提升诊断效率与准确性。但“巧妇难为无米之炊”,任何高效AI模型的构建都离不开大规模、高质量的数据集支撑,这包括用于分割的原始图像及其对应的“金标准”(Ground Truth, GT)分割标签。遗憾的是,此前公开可用的泪河分割数据集几乎为空白,这严重阻碍了干眼诊断AI模型的研发与临床应用。
为了突破这一瓶颈,来自温州医科大学附属眼视光医院、浙江师范大学、深圳市眼科医院等机构的研究团队在《Scientific Data》上发表了他们的研究成果,引入了首个公开可用的多中心、多模态、像素级下泪河分割数据集。这项研究旨在为开发鲁棒性强、泛化能力佳的泪河分割及TMH测量算法提供至关重要的数据资源。
为了开展这项研究,研究人员采用了一项关键的技术方法:回顾性收集了2019年2月至2024年9月期间来自中国东部、南部和西部4个城市共5家中心的患者眼部影像数据,所有影像均使用统一的Keratograph 5M(K5M)设备采集。经过严格的质量控制,最终纳入了1,693张彩色模态图像和1,739张红外模态图像。在图像标注环节,研究团队创新性地采用了一种人机交互的标注方法。该方法首先利用基于拉普拉斯算子的边缘检测算子增强泪河边界,自动提取近似边界,再由标注人员进行精细修正,最后通过基于KD-Tree数据结构的区域修复算法重建泪河区域,并与中央瞳孔区域整合完成掩码标注。这种方法相较于传统逐像素标注法,显著提高了标注效率和组内一致性(MIoU从0.8481提升至0.9941)。所有标注由两名初级眼科医生完成,并由一名高级眼科医生审核校正,确保了标注质量。此外,研究还通过计算平均交并比(MIoU)和Dice系数评估了标注者内(MIoU: 0.9579, Dice: 0.9559)和标注者间(MIoU: 0.9243, Dice: 0.9183)的一致性,验证了数据集的可靠性。
数据记录
研究构建的数据集已上传至Figshare平台,包含来自五个中心的原始图像及其对应的像素级分割标签。图像分辨率为1024x1360像素,以PNG格式存储,未经压缩。数据集按中心分别压缩,每个压缩包内包含“Original”(原始图像)和“Label”(分割标签)两个文件夹,图像命名规则一致,便于对应使用。
技术验证
在技术验证部分,研究通过严谨的统计学指标证实了数据集标注的高质量。标注者内和标注者间的高度一致性为数据集的可靠性和后续AI模型训练的稳定性奠定了坚实基础。
分割验证
为了展示数据集的实用价值,研究人员利用该数据集在三种代表性的分割架构——UNet、ResUNet和DeepLabV3+(骨干网络为FCN-ResNet50)上进行了分割实验。数据集按5:2:3的比例随机划分为训练集、验证集和测试集。实验结果表明,所有模型均取得了良好的分割性能,其中UNet模型表现最佳,其F1分数、召回率、精确率和MIoU分别达到0.9220、0.9127、0.9367和0.9279。这充分证明了该数据集能有效支持高性能泪河分割模型的训练,为未来TMH的自动量化与干眼研究提供了可靠的数据基础。
综上所述,陈晓宇、王克胜等人的这项研究成功地构建并公开了一个大规模、高质量、多中心、多模态的像素级泪河分割数据集。该数据集不仅填补了该领域公开数据资源的空白,其创新性的人机交互标注方法也为医学图像标注提供了新思路。通过严格的质控和一致性评估,以及在不同AI模型上的有效性验证,研究证实了该数据集的高可靠性和实用价值。这一资源的开放共享,将极大地促进干眼及相关眼病诊断AI模型的开发、评估与推广,对推动眼科医学人工智能从研究走向临床具有里程碑式的意义,为实现干眼的早期、精准、高效诊断带来了新的希望。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号