基于机器学习与判别分析模型的肺结节良恶性预测研究:提升肺癌早期诊断准确性的新策略

【字体: 时间:2025年07月19日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  本研究针对肺结节(PNs)良恶性鉴别诊断的临床难题,广州医科大学团队创新性地结合机器学习算法(RF/GBM/XGBoost)与判别分析,构建了GMU_D预测模型。研究纳入7244例肺结节(4735例良性/2509例恶性),通过多中心数据验证显示模型AUC达0.866,显著优于PKUPH和Block模型。该成果为临床提供了高精度的无创诊断工具,可有效降低96.4%的假阳性率,相关网络预测平台已上线应用。

  

在低剂量CT(LDCT)肺癌筛查日益普及的背景下,肺结节(PNs)检出率高达21.57%,但其中超过90%为良性病变,传统诊断方法存在高达96.4%的假阳性率。这种"过度诊断"现象导致大量患者承受不必要的侵入性检查和手术风险,临床亟需建立精准的无创鉴别诊断体系。广州医科大学附属第一医院联合南方医科大学第三附属医院的研究团队,通过整合多中心临床数据和创新算法,在《BMC Medical Informatics and Decision Making》发表了突破性研究成果。

研究团队采用三阶段研究设计:首先收集2018-2021年间15,462例体检人群和2,616例手术患者的临床数据,最终纳入7,244例肺结节(4,735例良性/2,509例恶性);随后运用随机森林(RF)、梯度提升机(GBM)和XGBoost三种机器学习算法筛选出23个关键特征;最后构建基于判别分析的GMU_D模型,并通过10折交叉验证评估性能。

研究结果呈现多个重要发现:

  1. 流行病学特征:体检人群肺结节检出率为21.57%,且呈逐年上升趋势。实性结节(SN)占比最高(50.15%),左肺上叶是好发部位(47.17%)。恶性结节中,微浸润腺癌(MIA)是最常见病理类型(43.70%)。

  1. 特征筛选结果:机器学习算法确定结节大小、类型(SN/GGN/PSN)、炎症标志物(MLR/NLR/PLR)等23个关键预测因子。其中XGBoost筛选的特征集构建的模型性能最优,包含血管集束征、空泡征等典型恶性征象。

  2. 模型性能比较:GMU_D模型AUC达0.866(95%CI:0.858-0.874),显著优于PKUPH模型(AUC=0.559)和Block模型(AUC=0.823)(DeLong检验P<0.001)。模型对实性结节和亚实性结节均保持稳定鉴别能力。

  1. 临床应用转化:研究团队开发了网络可视化工具(https://outch-lee.shinyapps.io/GMU_D_model/),临床医生可通过输入CT特征和血液指标快速获取良恶性概率评估。

讨论部分指出,该研究首次将判别分析应用于肺结节良恶性鉴别,解决了传统Logistic回归处理非线性数据的局限性。创新性地整合影像组学特征(如血管集束征)与系统性免疫炎症指数(SII=血小板×NLR)等血液标志物,使模型兼具形态学和生物学依据。特别值得注意的是,模型对<6mm的小结节仍保持82%的鉴别准确率,这对早期肺癌筛查具有重要意义。

研究也存在一定局限:数据来源于医院而非社区人群,可能存在选择偏倚;外部验证尚未完成。未来计划通过多中心前瞻性研究进一步验证模型的普适性。该成果为肺癌早诊早治提供了可靠工具,其算法框架也可拓展应用于其他肿瘤的鉴别诊断。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号