AI 宫颈癌筛查新突破:多轴异质性图像质量分类器,为精准诊断保驾护航

【字体: 时间:2025年02月22日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 AI 模型临床应用中因图像质量问题导致的误判,研究人员开展宫颈图像质量分类器研究。得出模型能有效分类且泛化性强的结果。该研究为 AI 临床应用提供重要参考,推荐科研读者阅读。

  
在当今医疗领域,人工智能(AI)和深度学习(DL)技术可谓发展得如火如荼,它们就像一群充满活力的小魔法师,在临床任务中展现出了巨大的潜力。在皮肤癌诊断方面,AI 能像专业皮肤科医生一样,准确地对皮肤癌进行分类;在心律失常检测上,也能达到心脏病专家的水平。然而,当这些 “魔法” 想要真正走进临床实践时,却遭遇了重重阻碍,其中一个大难题就是图像质量控制问题。

就拿宫颈癌筛查来说,这一领域对图像质量的要求极高。想象一下,医生要通过观察宫颈的图像来判断是否存在病变,可要是图像质量不好,就好比戴着一副模糊的眼镜看东西,根本没法做出准确判断。影响宫颈图像质量的因素有很多,比如图像模糊、光线不佳、有噪声干扰,还有可能因为黏液或血液遮挡了宫颈,导致医生无法看清关键部位。而且,不同地区可能会使用各种不同的图像采集设备,操作人员的技术水平也参差不齐,这些都给图像质量带来了很大的挑战。

在过往的研究中,虽然 AI 和 DL 技术发展迅速,但在处理临床图像质量方面却进展缓慢。很多诊断 AI 模型在训练时,根本没有对图像质量进行筛选,这就导致模型在实际应用中,面对质量不佳的图像时,很容易出现误判,从而影响患者的诊断和治疗。这就好比让一个没有经过严格训练的士兵去执行重要任务,结果往往不尽如人意。

为了解决这些问题,来自多方的研究人员开展了深入研究,并在《Scientific Reports》期刊上发表了题为 “Reproducible and clinically translatable deep neural networks for cervical screening” 的论文。他们成功开发并外部验证了一个多类图像质量分类器,能够将宫颈图像准确地分为 “低”“中”“高” 三个质量等级。这个分类器就像是一个严格的 “图像质检员”,能有效筛选出高质量的图像,为后续的诊断提供可靠依据。而且,研究发现这个模型的泛化能力很强,在面对不同设备、不同地理区域的数据时,都能保持良好的性能,还能很好地模拟医生对图像质量的判断。这一成果对于推动 AI 技术在临床实践中的应用具有重要意义,就像是为 AI 在医疗领域的发展铺就了一条更加平坦的道路。

研究人员为了开展这项研究,运用了多种关键技术方法。他们首先收集了大量的图像数据,构建了两个重要的数据集,分别是 “SEED” 和 “EXT” 数据集。“SEED” 数据集就像是一个图像大杂烩,包含了来自不同设备、不同地理区域的图像,是模型训练和选择的重要基础;“EXT” 数据集则来自新的设备和地理区域,用于对模型进行外部验证。接着,他们让经验丰富的医生对图像进行质量标注,将图像分为 “不可用”“不满意”“有限”“可评估” 四个类别,之后又合并为 “低质量”“中等质量”“高质量” 三个等级。在模型训练方面,他们尝试了不同的模型架构(如 densenet121、resnet50)、损失函数(标准交叉熵、二次加权 kappa、均方误差损失)和数据集平衡策略(平衡采样、平衡损失),通过多轮实验,最终确定了表现最佳的模型。

下面我们来看看具体的研究结果:

模型开发


在第一轮实验中,研究人员想知道训练集大小对模型性能有什么影响。他们分别用高比例(65%)和低比例(10%)的 “SEED” 数据进行训练,结果发现使用高比例数据并没有让模型性能有明显提升。这就好比给一个运动员吃很多食物,不一定就能让他跑得更快。考虑到训练时间、内存容量等因素,研究人员决定在后续实验中采用低比例数据进行训练。

第二轮实验聚焦于宫颈检测对质量分类器性能的影响。研究人员利用预训练的 YOLOv5 模型训练了一个宫颈检测器,就像是给模型装上了一双 “火眼金睛”,能精准地找到宫颈的位置并进行裁剪。实验结果令人惊喜,经过宫颈检测处理后的模型,在多个关键分类指标上都有显著提升,这表明宫颈检测对于提高模型性能非常重要。

模型选择和内部验证


研究人员在 “SEED” 数据集上进行了大量实验,尝试了不同模型架构、损失函数和平衡策略的组合。经过多轮筛选和验证,他们发现虽然很多模型在连续指标上表现相似,但离散指标(如 % EM、% LQ as HQ 和 % HQ as LQ)能有效区分模型的优劣。最终,他们确定了最佳模型,这个模型采用 densenet121 架构、二次加权 kappa 作为损失函数、平衡损失作为平衡策略,在内部验证集中取得了优异的成绩,如 AUROC 达到 0.92(LQ vs. rest)和 0.93(HQ vs. rest),总 % EM 仅为 2.8%。

外部验证


研究人员用来自新设备(IRIS colposcope)和新地理区域(柬埔寨、多米尼加共和国)的 “EXT” 数据集对最佳模型进行外部验证。通过 UMAP 分析发现,“EXT” 数据集和 “SEED” 数据集中的部分设备数据分布较为接近,而且地理因素对模型性能影响不大。实验结果显示,模型在 “EXT” 数据集上的开箱性能就很强,AUROC 分别为 0.83(LQ vs. rest)和 0.82(HQ vs. rest),% EM 为 3.9%;经过重新训练后,性能进一步提升。这说明模型在面对不同设备和地理区域的数据时,具有良好的适应性。

组内评估


研究人员选取了 100 张 “EXT” 数据集的图像,让两位不同的评估者进行标注,以此来评估模型与评估者之间的一致性。结果发现,模型能很好地模拟评估者的行为。对于参与过 “SEED” 数据集标注的评估者 1,模型的 AUROC 分别为 0.96(LQ vs. rest)和 0.85(HQ vs. rest),% EM 为 2%;对于全新的评估者 2,模型的 AUROC 分别为 0.87 和 0.80,% EM 为 8%。而且,模型在处理 “中间” 类图像时,能很好地捕捉评估者之间的不确定性和分歧,这对于筛选图像、辅助诊断非常有帮助。

诊断分类器性能分析


研究人员还研究了下游诊断分类器在不同质量图像上的性能。结果发现,质量较差的 “中间” 类图像会导致诊断分类器出现较大偏差,很多实际为 “正常” 的图像被误判为 “灰色地带 / 不确定” 或 “癌前 +”。这进一步证明了图像质量对于诊断分类的重要性,也凸显了图像质量分类器的必要性。

质量分类器性能按可用质量因素分析


研究人员对少量标注了具体质量因素的 “低质量” 图像进行分析,评估最佳质量分类器在不同质量因素类别下的性能。结果发现,模型在过滤掉碘染色后图像、因宫颈位置或不明原因导致宫颈视野被遮挡的图像方面表现较好,但在处理因黏液或血液遮挡宫颈的图像时效果稍差。

在这项研究中,研究人员成功开发并验证了一个宫颈图像质量分类器,它就像一位可靠的 “图像质检员”,能够有效地将宫颈图像分为不同质量等级,为后续的诊断提供有力支持。而且,这个模型在面对不同设备、地理区域和评估者时,都能保持良好的性能,泛化能力很强。这一成果对于推动 AI 技术在宫颈癌筛查等临床领域的应用具有重要意义,为解决 AI 模型在临床实践中遇到的图像质量和泛化性问题提供了新的思路和方法。当然,研究也存在一些局限性,比如外部设备和图像采集者的数量有限。但这并不影响它为未来的研究和临床应用奠定坚实的基础,相信在未来,随着研究的不断深入,AI 技术在医疗领域将会发挥更大的作用,为患者带来更多的福音。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号