一项关于Lung-PNet的多中心外部验证研究:在胸部CT图像上将纯磨玻璃结节分类为侵袭性腺癌和非侵袭性亚型

【字体: 时间:2025年12月26日 来源:European Journal of Radiology Artificial Intelligence

编辑推荐:

  本研究通过多中心回顾性分析验证了Lung-PNet人工智能模型在区分纯 ground-glass 肿瘤(pGGNs)中的侵袭性腺癌(IAC)与非侵袭性亚型(如AIS、MIA)时的可扩展性。模型在本地(AUC-ROC 0.801)和全国(AUC-ROC 0.832)队列中表现稳定,但存在显著的机构间差异(P<0.05)。高 NPV(0.930)支持其作为“排除工具”的临床价值,而PPV(0.424)较低提示需结合临床判断。关键影响因素包括pGGN类型、病灶体积、像素间距及医院差异。研究为AI整合放射科多学科决策提供了证据支持。

  
### 多中心外部验证研究:Lung-PNet模型在纯磨玻璃结节(pGGNs)中的临床决策支持价值

#### 一、研究背景与核心问题
肺腺癌(IAC)作为肺癌的主要亚型,其早期诊断对改善患者预后至关重要。然而,纯磨玻璃结节(pGGNs)的生物学行为高度异质化,现有影像学评估方法存在主观性强、诊断标准不统一等问题。尽管深度学习模型(如Lung-PNet)在单中心研究中展现出潜力,其实际临床应用仍面临多中心验证不足、参数标准化缺失等挑战。本研究通过纳入7家不同医院的720例pGGNs病例,系统验证了Lung-PNet模型的跨机构适用性,并揭示了影响其性能的关键因素。

#### 二、研究设计与方法
1. **数据来源与样本量**
研究纳入2019年1月至2023年3月期间接受手术治疗的pGGNs病例,覆盖北京大学第一医院等7家三级医疗机构。最终纳入720例(IAC 143例,非-IAC 577例),其中本地医院(A-D)334例,全国性医院(E-G)386例。样本量超过现有同类研究,且首次在多中心场景下验证AI模型的泛化能力。

2. **影像学参数标准化**
纳入病例的CT扫描设备涵盖西门子、飞利浦、GE等6种品牌,扫描参数存在显著差异(如层厚0.625-2.000mm,像素间距0.634-0.805mm)。研究团队通过预训练模型(Lung-PNet)的自动分割功能,结合两位放射科专家的共识审核,确保了影像分析的标准化。

3. **病理学验证流程**
所有标本均由≥2名 thoracic病理学家独立复核,采用2021年WHO分类标准,最终病理分型包括AAH(3.5%)、AIS(42.2%)、MIA(34.4%)和IAC(19.9%)。特别值得注意的是,研究排除了间隔超过2周的病例,并严格筛选了5-30mm的结节范围,确保病理结果与影像学特征高度对应。

#### 三、模型性能评估
1. **核心评价指标**
- **AUC-ROC**:整体0.800(95%CI 0.760-0.839),本地组0.801,全国组0.832,组间差异无统计学显著性(P=0.438)。
- **NPV**:整体达0.930(95%CI 0.903-0.952),表明AI模型对非-IAC的排除能力极强。但PPV仅0.424,提示AI阳性结果仍需结合临床综合判断。

2. **临床决策支持价值**
通过决策曲线分析(DCA)发现,当AI预测概率阈值设为0.62时,模型在低风险组(0-0.4)的临床获益显著优于“ treat-all”策略(成本效益比1:100 vs 3:1),支持主动随访而非盲目手术。但高风险组(>0.6)的模型效能未达统计学标准,需谨慎解读。

3. **医院间性能差异**
模型AUC在7家医院波动于0.673-0.929,其中医院A(0.929)与医院B(0.716)差异显著(P=0.043)。进一步分析显示,高IAC检出率医院(如C医院45例IAC/251例总病例)的模型性能优于低检出率机构(如D医院仅4例IAC/20例总病例)。

#### 四、关键影响因素分析
1. **病理亚型与影像特征**
- IAC组与non-IAC组在最大直径(20.0 vs 13.0mm)、体积(1.07 vs 0.35cm3)等参数上存在显著差异(P<0.001)。
- 模型对非-IAC的识别主要依赖“无毛刺边缘”(正确识别率89.2%)和“无血管穿透”(正确识别率64.7%),但对非典型AAH的敏感度较低(仅17.3%)。

2. **影像设备与参数**
- **像素间距**:每增加1mm的间距,模型正确分类概率提升13.7%(P=0.005)。这可能因低分辨率导致特征丢失,需设备厂商协同优化。
- **重建算法**:B核(42.7%)和Br64f核(2.0%)的模型性能差异显著(P<0.001),高密度重建(如Br64f)可能更适合AI分割。

3. **医院特定因素**
研究发现,医院层面的随机效应解释了约23.5%的模型性能差异。例如,医院C(IAC占比22.4%)的模型AUC(0.834)显著高于医院B(IAC占比7.7%)的0.716(P=0.008)。这提示临床实践中需结合本地IAC发病率调整阈值。

#### 五、临床应用路径建议
1. **分级诊疗策略**
- **低风险组(AI评分<0.4)**:推荐6-12个月随访CT,结合Lung-RADS 2级分类(93.8%病例)。
- **高风险组(AI评分≥0.6)**:建议穿刺活检或PET-CT确认,优先考虑楔形切除(IAC占比38.8%)。
- **中风险组(0.4-0.6)**:需MDT多学科讨论,建议间隔3个月复查。

2. **影像参数优化建议**
- 标准化层厚≤1.25mm,像素间距≤0.7mm,以提升AI模型特征提取的可靠性。
- 对低分辨率设备(如像素间距>0.8mm),建议增加预重建(如迭代重建)以改善图像质量。

3. **医院协作机制**
- 建立区域性影像数据共享平台,针对不同设备参数进行模型微调(如医院G的像素间距0.742mm需针对性优化)。
- 对IAC检出率低于15%的医院(如D医院),需加强病理-影像勾稽训练。

#### 六、研究局限性及改进方向
1. **样本局限性**
- 33.3%病例来自单一医院(C医院),可能影响结果的外部代表性。
- 未纳入肺磨玻璃实变(part-solid)和实性结节,需后续扩展研究。

2. **模型性能短板**
- PPV仅42.4%,对高发的AIS(42.2%)和MIA(34.4%)分类存在漏诊。
- 模型对血管穿透征(TP 39.2%)的识别能力较弱,需结合多模态影像(如MIP图像)增强特征。

3. **临床转化挑战**
- AI模型与临床工作流的整合成本较高(如医院F的24例样本中需投入3.5小时/例的影像后处理时间)。
- 缺乏与指南推荐(如Fleischner Society的5年随访策略)的长期疗效数据。

#### 七、结论与意义
本研究首次在真实世界多中心场景下验证了Lung-PNet的可靠性,其高NPV(93%)支持作为“排除工具”降低手术率(本研究中非-IAC手术占比仅8.4%),而中高风险组的“置信区间”仍需临床确认。未来需开发“临床-影像-病理”一体化平台,将AI预测概率(0.62阈值)与患者年龄、吸烟史等协变量结合,建立动态决策支持系统。

该研究为AI影像辅助诊断提供了重要范式:模型需通过多中心验证(样本量>500例/中心)和参数标准化(如统一采用0.625mm层厚),同时建立“AI预警-临床决策-病理复核”的闭环流程,才能真正替代传统主观评估。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号