机器学习结合呼出气挥发性有机物分析建立肺癌诊断新框架

【字体: 时间:2025年07月19日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对肺癌早期诊断的临床挑战,创新性地结合气相色谱-质谱联用技术(GC-MS)与机器学习算法,从呼出气中筛选出10种特异性挥发性有机化合物(VOCs)作为生物标志物。通过消除吸烟、性别等混杂因素影响,研究团队开发的偏最小二乘判别分析(PLS-DA)模型对肺癌与对照组的区分准确率达80%(AUC=0.96),对肺结核的鉴别精度达88%,为开发无创肺癌筛查设备奠定基础。

  

肺癌作为全球致死率最高的恶性肿瘤之一,每年导致超过180万人死亡,其早期诊断困境始终是临床痛点。传统低剂量螺旋CT虽能提高检出率,却存在辐射暴露和假阳性率高的缺陷。当患者出现胸痛、咳血等症状时,往往已进展至晚期,此时五年生存率骤降至不足5%。这种"发现即晚期"的临床现实,催生了对无创、快速诊断技术的迫切需求。

博茨瓦纳国际科学与技术大学(Botswana International University of Science and Technology)联合法国图卢兹国立理工学院的研究团队另辟蹊径,将目光投向人体呼出气中的挥发性有机化合物(VOCs)。这些代谢"指纹"不仅能反映肺部病理状态,其采集过程还具有完全无创、可重复性强的独特优势。通过整合机器学习与严格的混杂因素控制策略,该研究建立了肺癌诊断的新范式,相关成果发表于《Scientific Reports》。

研究团队采用气相色谱-质谱联用(GC-MS)分析52名参与者(含20例肺癌、10例肺结核和22例对照)的99份呼气样本,通过OpenChrom软件和NIST质谱库鉴定化合物。运用曼-惠特尼U检验排除吸烟、性别等干扰因素后,采用PLS-DA等机器学习模型评估生物标志物的诊断效能。

结果
呼出气VOCs谱特征
典型肺癌患者的离子流色谱图显示多个特征峰,包括首次报道的2-溴十二烷、十五醛等化合物。校准曲线验证仪器灵敏度(R2>0.99),关键标志物邻伞花烃在肺癌组浓度(17.62 ppm)显著高于对照组(5.54 ppm)。

混杂因素控制
通过分层分析发现,邻苯二甲酸二乙酯等化合物受癌症分期影响,而苯乙酸等与吸烟显著相关(p<0.05)。最终筛选出10种不受混杂因素干扰的VOCs,其中2,3,6,7-四甲基辛烷的Cliff's delta效应值达0.63,展现强区分力。

机器学习模型性能
PLS-DA模型在区分肺癌与对照组时展现最优性能:灵敏度82%、精确度90%、F1值86%。引入肺结核数据后,模型仍保持88%的稳定性能,证实标志物特异性。ROC曲线分析显示AUC达0.96,显著优于支持向量机(0.89)和K近邻算法(0.85)。

讨论与意义
该研究创新性地将化学分析与人工智能相结合,建立了一套可消除"疾病异质性"干扰的分析框架。首次报道的2-溴十二烷等化合物,为理解肺癌代谢机制提供了新线索。尤其值得注意的是,模型对肺结核的鉴别能力解决了呼吸系统疾病诊断中的"假阳性陷阱"问题。

这项研究不仅为开发便携式肺癌呼气诊断仪奠定了技术基础,其"机器学习+混杂控制"的双重验证策略,更为生物标志物研究提供了方法论范式。随着后续大样本验证的推进,这种无辐射、低成本的技术有望成为肺癌早期筛查的重要工具,让"闻气识癌"的愿景照进现实。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号