编辑推荐:
在放射学领域,标注偏差影响 AI 模型可靠性。研究人员分析 MIMIC-IV CXR 数据库中 172,380 份胸片报告,发现临床问题显著影响关键观察结果的报告,且因疾病而异。该研究对减少数据偏差、提升多模态 AI 系统泛化性意义重大。
近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的蓬勃发展,其在放射学领域的应用也日益广泛,如放射学报告自动生成和诊断图像解读等。通过预测建模,能够从输入图像映射到注释,在单模态设置下估算条件概率分布,而多模态设置则进一步纳入患者病史、实验室结果和人口统计数据等临床信息,从而生成更具临床相关性的解释。
然而,这一领域并非一帆风顺。放射学报告中的注释通常是预测模型标签的重要来源,但标签的不准确整理或推导却引发了诸多问题。标注偏差会导致数据不一致、存在偏见,进而影响预测模型的可靠性和泛化性,降低其临床实用性。在实际临床场景中,放射学报告并非仅基于成像数据,还会融入患者的临床信息,这就使得报告结果容易受到多种因素影响,产生注释偏移或概念偏移现象。比如,同一患者在住院期间的多次检查,尽管图像相似,但报告内容却可能因病史、与先前检查的对比以及临床问题等因素而大相径庭。因此,深入了解放射科医生的工作流程以及数据生成过程中的因果机制迫在眉睫。
为了攻克这些难题,来自国外的研究人员对 MIMIC-IV CXR 数据库展开了深入研究。该研究成果发表在《Computer Methods and Programs in Biomedicine》上,为放射学领域的发展带来了新的曙光。
研究人员采用了一系列关键技术方法。首先,他们回顾性分析了 MIMIC-IV CXR 数据库中 45,561 名不同患者的 172,380 份 X 射线报告以及相关临床信息,这些数据均来自住院或急诊入院患者,有着明确的出院诊断。接着,运用倾向性评分匹配法平衡治疗组和对照组,再借助逻辑回归和神经网络模型估算因果效应。通过计算风险差异和 95% 置信区间判断结果的显著性(p≤0.05),并利用敏感性分析评估效应估计的稳健性。
在研究结果方面:
- 临床问题对报告的影响:临床问题的纳入显著影响了关键观察结果的报告。以肋骨骨折为例,当存在临床问题时,提及心脏肥大的概率增加了 15%(p≤0.05)。在多种疾病中,支持设备相关的报告也受到类似影响。
- 临床信息影响因疾病而异:临床信息对不同疾病报告的影响差异较大。对于某些疾病,存在临床问题时,报告中提及肺炎的概率显著增加;而对其他疾病,则没有明显影响。
研究结论和讨论部分指出,放射科医生在临床实践中并非孤立地分析成像数据,而是采用多模态方法,综合多种临床信息进行诊断。这一发现为 AI 模型开发中的分类任务提供了重要参考。该研究通过揭示放射学报告中注释偏差的来源,为减轻数据集整理中的偏差提供了理论依据,有助于构建更可靠的 AI 模型,提升多模态医学成像系统的泛化性,从而推动整个放射学领域的发展,为临床诊断和治疗提供更有力的支持 。