
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能模型在肺结节分类中的诊断性能评估:多模型验证与临床适用性分析
【字体: 大 中 小 】 时间:2025年07月27日 来源:European Radiology 4.7
编辑推荐:
本研究针对肺癌早期诊断中肺结节良恶性鉴别难题,评估了三种商用AI模型的诊断性能。研究团队通过158例经病理证实的肺结节(4-30mm)CT数据,发现现有AI模型存在敏感性中等(53.1-70.3%)、特异性低(46.7-66.7%)及49%结节被归为"中间风险"等问题,证实当前AI尚不能独立用于临床决策。该成果为AI辅助诊断系统的优化提供了重要循证依据。
肺癌作为癌症相关死亡的首要原因,其预后高度依赖早期诊断。随着高分辨率CT的普及,肺结节检出率显著提升,但随之而来的是良恶性鉴别这一临床难题。传统方法依赖结节大小、形态特征和生长速率等指标进行风险评估,而人工智能(AI)技术被寄予厚望——期望通过自动化结节检测、降低假阳性率和优化风险预测来改善患者预后。然而现有AI模型在临床实践中的可靠性仍存争议,这主要源于研究泛化性不足、决策过程不透明以及对放射科医生决策影响数据的缺乏。
德国美因茨约翰内斯古腾堡大学医学中心(University Medical Center of the Johannes Gutenberg-University Mainz)的研究团队开展了一项单中心回顾性研究,对三种商用AI软件(ADVANCE Chest CT/InferRead? CT Lung/Rayscape Lung CT)进行了系统性评估。研究纳入2018-2024年间接受CT引导肺活检或手术切除的152例患者(158个经病理证实的肺结节),通过受试者工作特征曲线(ROC)分析和亚组评估,揭示了当前AI辅助诊断系统的局限性。该研究成果发表于《European Radiology》。
研究采用病理结果为金标准,主要技术方法包括:1) 从医院PACS系统筛选符合标准的胸部CT扫描(结节大小4-30mm);2) 使用三种AI模型自动分析结节特征并输出恶性风险评分;3) 通过ROC曲线计算曲线下面积(AUC)评估诊断效能;4) 按结节大小(5-8mm亚组)和病理类型(原发肺癌/转移癌)进行分层分析;5) 采用回归分析评估CT扫描参数对分类结果的影响。
诊断准确性
模型1和模型2在整体样本中表现中等敏感度(53.1% vs 70.3%)但特异性较低(66.7% vs 46.7%),AUC值仅0.57-0.63。值得注意的是,模型3因将93.9%结节归类为"中间风险"而无法进行有效评估。假阴性率高达22.4-25.5%,意味着每4-5个恶性结节就有1个被漏诊。
亚组分析
在5-8mm结节亚组中,模型特异性提升至100%,但敏感性骤降至47.8-52.2%,假阴性率飙升至73.3-83.3%。对于转移性结节,AI模型表现出61.5%的敏感性和100%特异性,但该结果受限于小样本量(n=23)。
影响因素
回归分析显示,屏气CT扫描可提高模型1的分类准确性(p=0.03),而切片厚度和取样方式(活检vs手术)显著影响模型2的性能。非屏气扫描可能导致运动伪影,这是影响AI判断的重要因素。
研究结论明确指出,当前AI模型尚不具备独立临床应用条件,主要原因包括:1) 特异性不足导致高假阳性率(45.5-52.4%),可能引发过度治疗;2) 近半数结节被归为"中间风险"造成决策困境;3) 对小结节(5-8mm)的诊断性能不稳定。这些发现为AI辅助诊断系统的优化指明了方向——未来研究需扩大样本量、优化训练数据集,并探索结合临床参数的多模态模型。该研究对推动AI在肺癌早筛中的规范化应用具有重要指导价值,提示医疗机构在引入AI辅助诊断时应保持审慎态度。
生物通微信公众号
知名企业招聘