胸部 X 光分类中的域转移分析:影响因素、研究成果与临床意义

【字体: 时间:2025年04月12日 来源:Journal of Imaging Informatics in Medicine

编辑推荐:

  为解决域转移对胸部 X 光(chest X-ray)分类准确性的影响问题,研究人员开展了胸部 X 光分类中域转移分析的研究。结果发现不同数据集存在差异,研究年份对多标签分类性能影响大。该研究为改进转移学习和模型开发提供依据,推动医学影像研究与患者护理。

  在医学领域,胸部 X 光检查是诊断呼吸和部分心脏疾病的常用手段。随着人工智能技术的发展,利用机器学习模型实现胸部 X 光异常的自动检测成为可能,这对加速疾病诊断和治疗意义重大。然而,目前的机器学习模型在实际应用中面临诸多挑战。一方面,模型的效果依赖于训练数据的质量和可用性;另一方面,不同来源的数据集存在差异,即域转移(domain shift)问题,这会导致模型在不同数据集上的表现不稳定,限制了其在现实场景中的应用。为了深入了解域转移对胸部 X 光分类的影响,美国橡树岭国家实验室(Oak Ridge National Laboratory)等机构的研究人员开展了相关研究。
研究人员使用了两个数据集:公开的 MIMIC-CXR 数据集和私人的退伍军人医疗管理局胸部 X 光数据集(VA-CXR)。MIMIC-CXR 数据集包含 377,110 张胸部 X 光片,来自 65,379 名患者;VA-CXR 数据集包含 259,361 张胸部 X 光片,来自 35,771 名患者。研究人员从放射学报告中提取真实标签(ground truth label),使用 CheXbert 和 CheXpert 这两种自然语言处理(NLP)工具进行标注,并通过与患者电子健康记录(EHR)中的国际疾病分类(ICD)代码进行关联,验证标签的准确性。

在模型构建方面,研究人员采用预训练的 DenseNet121 模型,并对其进行调整,用于多标签图像分类任务。他们通过计算曲线下面积(AUC)来评估模型性能,分析不同标签在不同数据集上的分类效果,同时研究人口统计学因素(如年龄、性别、研究年份)和成像相关因素(如视角)对分类性能的影响。

研究结果如下:

  1. 真实标签验证:对比 CheXpert 和 CheXbert 在两个数据集上的标注结果,发现 VA-CXR 数据集的标注分歧率低于 MIMIC-CXR 数据集。例如,在 MIMIC-CXR 数据集中,肺不张(atelectasis)的阳性识别率为 19.5%,分歧率为 10.1%;而在 VA-CXR 数据集中,阳性识别率为 9.8%,分歧率仅为 0.7% 。这表明不同标注工具的标注一致性存在差异,高质量的标注对于模型性能至关重要。
  2. 多标签图像分类性能:使用不同 NLP 工具时,CheXbert 在大多数标签上的 AUC 得分更高,如心脏肥大(cardiomegaly)标签,DenseNet 模型搭配 CheXbert 的 AUC 得分为 0.862,而搭配 CheXpert 仅为 0.753。但对于某些标签,如骨折(fracture),两者差异不明显。同时,标签的流行率与模型性能相关,流行率高的标签(如胸腔积液 pleural effusion)通常能取得较高的 AUC 得分。
  3. 不同数据集间的性能比较:对比 MIMIC-CXR、其测试分割集(Test Split MIMIC-CXR)和 VA-CXR 数据集,发现除了 “心胸扩大(Enlarged Cardiomediastinum)” 标签外,其他标签在未见的 VA 数据集中域转移现象不明显。心胸扩大标签在 VA-CXR 数据集中的 AUC 下降显著,可能是因为源数据集中该标签的图像研究数量较少。
  4. 亚组分析
    • 研究年份:在 VA-CXR 数据集中,除了实变(consolidation)和胸膜其他(pleural other)标签外,其他标签的 AUC 在 2020 - 2022 年呈下降趋势,而肺不张、心胸扩大和胸腔积液的流行率随时间增加。
    • 性别:在两个数据集中,男性和女性群体的模型性能相似。尽管 VA-CXR 数据集中男性患者比例较高,但模型在女性群体上也表现良好,这可能得益于 MIMIC-CXR 数据集的性别比例平衡。
    • 视角:不同视角下,标签的流行率和 AUC 存在差异。例如,VA-CXR 数据集没有侧位图像,胸膜其他标签在 VA-CXR 的前后位(AP)视图中性能下降,可能是因为两个数据集中该标签的流行率都较低。
    • 年龄组:在 VA-CXR 数据集中,除了无异常发现(no finding)、肺部病变(lung lesion)和气胸(pneumothorax)标签外,其他标签的流行率随年龄增加而增加。心胸扩大和支持设备(support devices)标签在 VA-CXR 与 Test Split MIMIC-CXR 相比,AUC 下降明显,但在 VA-CXR 中不同年龄组的 AUC 表现更稳定。


研究结论与讨论:该研究系统地量化了域转移的影响,强调了高质量标注、合适的 NLP 工具和模型选择对胸部 X 光分类的重要性。研究发现域转移和人口统计学因素显著影响胸部 X 光分类,为改进转移学习和开发更稳健的模型提供了依据。在临床应用中,解决这些问题有助于提高 AI 驱动诊断的可靠性和公平性,促进医学影像研究的发展,改善患者护理。然而,研究也存在一些局限性,如两个数据集的临床设置差异、分类模型的选择、成像协议和预处理的影响以及缺乏手动标注的金标准等。未来的研究可以从整合手动标注、探索更多深度学习模型和集成策略、量化成像协议和设备差异的影响以及开发更具代表性的数据集等方面展开,进一步推动该领域的发展。

该研究发表在《Journal of Imaging Informatics in Medicine》上,为胸部 X 光分类研究提供了重要的参考,对医学影像领域的发展具有积极的推动作用。

研究中用到的主要关键技术方法:

  1. 数据集使用:采用公开的 MIMIC-CXR 数据集和私人的 VA-CXR 数据集,分别来源于不同的临床环境。
  2. 标签提取与验证:运用 CheXbert 和 CheXpert 这两种 NLP 工具从放射学报告中提取 14 种胸部相关标签,并通过与 ICD 代码关联验证标签准确性。
  3. 模型构建与评估:以预训练的 DenseNet121 模型为基础构建多标签图像分类模型,通过计算 AUC 评估模型在不同数据集上对各标签的分类性能,并分析不同因素对性能的影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号