基于BALF宏基因组测序的多模态机器学习模型在肺癌与肺部感染鉴别诊断中的突破性研究

【字体: 时间:2025年10月08日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对肺癌与肺部感染临床鉴别诊断难题,开发了一种基于支气管肺泡灌洗液(BALF)宏基因组下一代测序(mNGS)的多模态机器学习诊断方法。通过整合微生物组、噬菌体、宿主基因表达、转座元件和拷贝数变异(CNV)等特征,构建的集成模型(Model VI)在测试队列中达到0.847的AUC值,结合rule-in/rule-out策略后对不同感染类型的鉴别准确率提升至89.6%-91.5%。该研究为呼吸道疾病的精准诊断提供了新的解决方案。

  
在临床实践中,肺癌与肺部感染的鉴别诊断一直是个棘手难题。这两种疾病常常表现出相似的临床症状如呼吸困难、疲劳、咳嗽和咯血,以及重叠的影像学特征包括毛刺状实性结节或肿块、空洞伴结节边缘、胸壁或纵隔侵犯等。更复杂的是,多种病原体引起的肺部感染(包括细菌如假单胞菌、链球菌,分枝杆菌如结核分枝杆菌、非结核分枝杆菌,需氧放线菌如诺卡菌,以及真菌如曲霉、毛霉、隐球菌)都可能模拟肺癌的表现。在缺乏快速准确的组织病理学或微生物学检测结果的情况下,临床医生往往只能依靠临床和影像学特征进行判断,这导致误诊和治疗延误的风险显著增加。
近年来,不偏倚的宏基因组下一代测序(mNGS)技术的进步使得能够同时检测微生物和宿主遗传物质。这种技术已被广泛应用于各种复杂感染性疾病的诊断,并被证实是检测肺炎相关病原体的强大工具。更有趣的是,最新研究表明,分析mNGS检测中的人类序列转录组数据有助于区分败血症、急性呼吸道感染、结核性脑膜炎等感染性疾病与非感染性疾病。基于mNGS数据产生的染色体不稳定性和肿瘤相关拷贝数变异(CNV)开发智能算法,也被证明对恶性肿瘤的诊断有价值。这些发现促使研究人员思考:是否可以利用呼吸道样本的mNGS数据,建立一种结合患者微生物特征和宿主反应特征的整合基因组诊断方法?
由浙江大学医学院附属第一医院韩东升、刘畅等研究人员在《npj Digital Medicine》发表的最新研究,正是针对这一临床挑战开展的创新性探索。研究团队开发了一种基于多模态机器学习的诊断方法,通过分析402例支气管肺泡灌洗液(BALF)mNGS数据集,成功区分了肺癌(n=123)与各种肺部感染,包括细菌感染(n=114)、真菌感染(n=79)和肺结核(n=86)。
研究采用了多项关键技术方法:对BALF样本进行DNA和RNA同步提取并建库测序;使用Kraken2和Bracken进行微生物注释和群落结构分析;通过HISAT2和FeatureCounts分析宿主基因表达;利用TEtranscripts软件估计转座元件(TE)表达水平;应用CIBERSORTx算法估算免疫细胞组成;采用ichorCNA和CNVkit进行拷贝数变异分析和肿瘤分数估算;最后通过集成机器学习算法(LASSO、随机森林、XGBoost和支持向量机)构建多模态诊断模型。
微生物群落结构和特定分类群在不同肺病中的差异
研究发现,DNA数据的β多样性显示肺癌与肺部感染之间存在显著差异(PERMANOVA, R2=0.0067, P=0.002)。肺癌与特定感染亚组(包括细菌感染、真菌感染和肺结核)之间也观察到显著差异。值得注意的是,厌氧细菌具核梭杆菌(F. nucleatum)成为细菌感染的特异性生物标志物,这可能是因为该亚组中包含了肺脓肿患者。RNA数据同样显示肺癌与总体肺部感染之间存在显著差异(PERMANOVA, R2=0.0205, P=0.001)。
宿主免疫反应、转座元件表达和免疫细胞丰度的差异
为了最大限度减少核糖体RNA(rRNA)对测序数据质量的影响,研究在实验方案中加入了rRNA去除步骤。后续分析显示残留rRNA水平极低,真核rRNA仅占1.66%(IQR 1.01-2.62%),总rRNA占2.3%(IQR 1.38-3.98%)。每个样本检测到的基因中位数达到17,827个(IQR 16,832.5-18,738.5),表明数据利用率很高。
通过GSEA富集分析发现,差异表达基因(DEGs)在先天免疫通路如T细胞受体信号传导和细胞因子-细胞因子受体相互作用中显著富集。采用PLIER对训练数据集进行分析,研究人员在545个典型通路中描绘了宿主转录组谱,发现了多个在不同组间具有不同生物学功能的差异表达潜在变量(LVs)。特别是在癌症组中,下呼吸道转录组显示细胞周期(LV102和LV107)上调,而注释为细胞因子-细胞因子受体相互作用通路的LV165显示上调,与同一通路中的LV86相反。
研究还发现肺结核组中干扰素信号传导和先天免疫系统显著上调,这主要由肺结核驱动,显示了众所周知的干扰素信号传导上调。肺结核组表现出显著升高的TB相关标志物GBP1和GBP5。相比之下,癌症组显示四种趋化因子显著上调:CC趋化因子配体7(CCL7)、CCL8、CCL13和CX3CL1。
研究人员在肺癌和三个感染组之间鉴定了27个转座元件,发现肺癌中LTR-ERV(LTR6A和HUERS-P3-int)水平显著更高。通过计算量化方法估计免疫细胞丰度发现,肺结核中巨噬细胞M1显著升高,而真菌感染、肺结核和肺癌中巨噬细胞M2水平较高。与肺癌相比,细菌感染中中性粒细胞富集,真菌感染中单核细胞显著更高。
拷贝数变异和CNV衍生肿瘤分数的差异
对所有402个临床标本进行的质量控析析显示,宿主序列保留极好,宿主读取比例中位数为98.22%(IQR 97.46-98.66),每个样本的测序深度中位数为1923万映射读取数(IQR 15.95-23.66百万)。这一数据量超过了先前研究报告的数据量,确保了后续分析的可靠性。
使用三种不同的软件工具进行CNV和肿瘤分数估算。CNVkit显示3号染色体(肺部感染)和11号染色体(肺癌)上的CNV计数略有增加。感染组3号染色体上的CNV百分比更高。然而,当将癌症组与三个感染亚组进行比较时,CNV计数或百分比没有出现显著差异。ichorCNA估计的肿瘤分数为5.96%(肺癌,95%CI 4.15-7.77%)和6.29%(肺部感染,95%CI 0.54-12.04%)。肺癌与三个感染亚组之间的肿瘤分数没有显著差异。
基于宿主/微生物宏基因组的肺癌和肺部感染诊断建模
为了评估多模态谱在本队列中对肺部疾病的区分能力,研究人员从每个数据集中提取关键特征,并据此开发了一系列集成模型。他们开发了六个机器学习模型(模型I-VI),使用个体和集成方法,通过测试数据集上的平均AUC值评估其性能。
最终配置为:模型I(0.1LASSO+0.9RF,平均AUC=0.778),模型II(0.3RF+0.7XGBoost,平均AUC=0.691),模型III(0.3LASSO+0.7RF,平均AUC=0.867),模型IV(0.2LASSO+0.8SVM,平均AUC=0.604),模型V(0.9LASSO+0.1XGBoost,平均AUC=0.560),模型VI(0.3LASSO+0.7RF,平均AUC=0.869)。模型VI在所有比较组中始终获得最高的AUC值。
在亚组分析中,模型VI在区分肺癌与细菌感染(AUC=0.847,敏感性=80.6%,特异性=82.4%,精确度=0.829,召回率=0.806,F1分数=0.817)、真菌感染(AUC=0.872,敏感性=94.4%,特异性=69.6%,精确度=0.829,召回率=0.944,F1分数=0.883)和肺结核(AUC=0.909,敏感性=91.7%,特异性=76.0%,精确度=0.846,召回率=0.917,F1分数=0.88)方面表现出持续强劲的性能。
肺癌和感染诊断的复合预测模型
研究人员观察到,由于肺部感染的异质性,区分肺癌与个体类型肺部感染的精确度、召回率和F1分数高于肺癌与肺部感染联合比较中观察到的值。为了为临床医生提供更准确和可操作的分类信息,他们开发了一个基于rule-in和rule-out策略的复合预测模型。
这种方法将通用模型VI与相应的亚组特异性模型VI相结合。在此框架下,如果通用模型和任何亚组模型VI都将病例识别为肺癌,则将患者分配到rule-in类别(表明肺癌阳性诊断)。相反,如果两个模型都将病例分类为感染,则将患者分配到rule-out类别(表明肺部感染)。不符合rule-in或rule-out标准的患者被分类为不确定。此指定作为临床警报,表明分类置信度较低,需要进一步的诊断评估。
在三个不同临床比较中的验证证明了模型的稳健性能。在肺癌与细菌感染队列(n=54)中,模型将27个病例分类到rule-in带,22个分类到rule-out带。在肺癌与真菌感染分析(n=47)中观察到类似结果,有32个rule-in和11个rule-out分类。在肺癌与肺结核评估(n=48)中,产生了31个rule-in和12个rule-out病例。
诊断性能指标显示所有比较的准确性都有显著提高。对于细菌感染,准确性从0.800(56/70)提高到令人印象深刻的0.907(49/54),同时保持对癌症检测的完美敏感性(100%)和对感染识别的高特异性(84.4%)。在真菌感染区分中同样明显增强,准确性从0.797(47/59)提高到0.915(43/47),再次具有100%敏感性和88.9%特异性。模型在结核病区分中的表现同样稳健,达到0.896(43/48)的准确性,具有100%敏感性和86.1%特异性。
这些一致的发现表明,集成的rule-in/rule-out策略为使用mNGS数据准确区分肺部疾病提供了临床可行的解决方案。模型的卓越敏感性确保了全面的癌症病例检测,而其高特异性可靠地识别感染病因,为临床医生提供了有价值的诊断决策工具。所有比较中诊断准确性的提高强调了这种复合方法在真实世界临床场景中的有效性。
研究结论与意义
这项研究引入了一种创新的诊断范式,全面分析BALF mNGS数据中的宿主和微生物成分,以同时评估肺癌和肺部感染。这种整合方法在区分恶性肺部病变与各种感染条件(包括肺结核、真菌感染和细菌性肺炎)方面表现出卓越的准确性。通过从微生物病原体和人类基因组特征中提取临床有意义的信息,该方法显著扩展了BALF mNGS测试的临床效用,将以前被忽视的宿主序列转化为有价值的诊断标志物。
与主要用于病原体检测的传统mNGS不同,该模型在识别肺癌和感染亚型方面表现出高敏感性(例如肺部感染94.4%,肺结核91.7%),表明其作为mNGS在临床环境中补充工具的实用性。它可能有助于在病理结果可用之前进行早期诊断,并有助于减少肿瘤风险低或感染可能性高的患者的不必要活检和侵入性 procedures。
尽管BALF样本与血液或组织样本相比存在固有的异质性,但集成模型(模型VI)在区分肺癌与肺部感染方面表现出稳健的性能。该性能与基于不同样本类型的其他多组学模型相当,突出了使用BALF的多组学方法的诊断潜力。
研究还首次评估了肺部疾病患者BALF样本中转座元件(TEs)的表达水平。发现与真菌感染和结核病相比,肺癌中HERVK11D表达显著升高,而ERVK-MER11B在细菌感染中的表达高于结核病。这些发现与先前研究报告高度一致,表明异常TE激活可能通过调节癌症相关基因表达促进肿瘤发生。
重要的是,研究人员充分认识到外源核酸污染是BALF mNGS中的关键问题,特别是在低生物量样本中。通过整合RNA测序、宿主转录组分析和免疫细胞组成,实现了多维建模策略,增强了诊断特异性并最大限度地减少了环境或程序污染物的影响。
总的来说,这项研究提出了一个整合宿主和微生物特征的分析模型,以支持mNGS结果的解释。虽然患者接受BALF mNGS测试(从样本处理到结果报告在24小时内),但该模型可以提供基于概率的肺癌与肺部感染区分。这可能有助于在等待组织病理学或其他诊断结果期间辅助临床决策。此外,该模型在区分感染亚型方面显示出潜力,这可能有助于指导抗菌治疗策略。由于该模型建立在标准mNGS数据之上,它与现有工作流程兼容,并显示出未来在信息系统或分析管道中集成和自动化的前景。这可以促进mNGS从病原体检测工具转变为包含微生物和宿主信息的精确诊断平台,从而增强其在真实世界临床环境中的实用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号