机器学习驱动结核耐药精准预测:基于全基因组突变特征与可解释模型的新策略

【字体: 时间:2025年07月13日 来源:BMC Genomic Data 1.9

编辑推荐:

  传统结核分枝杆菌(MTB)药敏检测耗时长,现有分子诊断技术(如Xpert MTB/RIF)覆盖药物有限。浙江大学团队提出机器学习(ML)框架,整合全基因组测序(WGS)与药敏表型数据,成功预测MTB对18种抗生素(含4种一线药物)的耐药性。梯度提升分类器(GBC)模型对利福平(RIF)和异烟肼(INH)的预测准确率>96%,并通过SHAP值解析关键耐药相关SNPs(如rpoB_p.Ser450、katG_p.Ser315),为临床快速诊断提供透明化工具。该研究发表于《BMC Genomic Data》,代码开源。

  

论文解读

结核病(TB)作为全球第二大传染病死因,2021年新增病例达1060万,其中耐多药结核病(MDR-TB)占比攀升至3.6%,中国更是全球MDR-TB负担第二大国。传统药敏检测(AST)需数周,而主流分子诊断技术(如Xpert MTB/RIF)仅覆盖有限靶点,难以全面捕捉乙胺丁醇(EMB)、吡嗪酰胺(PZA)等药物的复杂耐药机制。面对这一困境,浙江大学医学院附属邵逸夫医院、浙江大学转化医学研究院及浙江省数字医学诊断技术重点实验室的研究团队,在《BMC Genomic Data》发表突破性研究,首次构建基于机器学习的结核耐药全基因组预测框架,不仅实现高精度表型预测,更通过可解释模型揭示关键耐药突变位点。

研究团队采用三大核心技术:

  1. 数据整合与质控:从PATRIC数据库获取全球5,739株MTB分离株的全基因组测序(WGS)数据及18种抗生素的AST表型,经CheckM评估(完整度≥95%、污染<5%)和fastp质控,通过Snippy比对H37Rv参考基因组(NC_000962.3)完成SNP calling。

  2. 特征工程与建模:针对高维SNP数据(>30,000位点),使用LASSO回归筛选特征,构建12种机器学习模型(含GBC、SVM、RF等),在6折交叉验证中评估性能。

  3. 模型解释与验证:采用SHAP框架解析GBC模型决策机制,并在印度(PRJNA741102)、以色列(PRJNA957554)独立队列中验证泛化能力。

研究结果

1. GBC模型显著提升一线药物预测精度

在4种一线药物中,GBC模型表现最优:RIF准确率97.28%、INH 96.06%、PZA 94.19%、EMB 92.81%,显著优于传统方法(如WHO突变目录)。而EMB和PZA的预测瓶颈(印度队列准确率仅67.4-83.7%)提示需纳入区域特异性突变。

2. SHAP揭示核心耐药突变位点

通过SHAP值量化SNP贡献度,发现:

  • RIF耐药:rpoB_p.Ser450(位点761,155)突变SHAP值最高(>0.8),其变异等位基因(ALT=1)直接驱动耐药表型;rpoB_p.Asp435(761,110)次之。

  • INH耐药:katG_p.Ser315(2,155,168)为核心驱动因子,inhA启动子突变(inhA_c.-777C)贡献度第三。

    14/15的顶级SNPs与WHO耐药突变目录(第2版)匹配,其中12个属"耐药相关-中度证据"(Assoc-w-R-int)。

3. 新发现耐药相关基因拓展认知边界

功能注释发现多个未列入WHO目录的潜在耐药基因:

  • 转运蛋白基因:多重耐药外排系统渗透酶(与EMB、RIF相关)、阳离子转运P型ATP酶(与链霉素相关)。

  • 转移酶基因:推定阿拉伯糖基转移酶A(embA,与EMB、ETI相关)。

  • 代谢相关基因:ATP依赖锌金属蛋白酶FtsH(与环丝氨酸、卡那霉素相关)。

4. 独立队列验证模型泛化能力

在印度MDR-TB队列中,GBC对RIF、INH的预测准确率均>90%(F1分数0.941/0.952),优于GenTB(0.946/0.935);在以色列队列中表现更优(F1=1.000/0.971)。但对PZA的预测仍存挑战(F1=0.290),凸显其耐药机制的复杂性。

结论与意义

该研究首次将可解释机器学习框架应用于结核耐药基因组分析,突破传统方法的三大局限:

  1. 广度突破:涵盖18种抗生素(含14种二线药物),远超WHO目录和商用检测范围。

  2. 精度革新:GBC模型对RIF/INH的预测精度>96%,且通过15个核心SNPs即可达到与全基因组分析工具(GenTB)相当的效能。

  3. 机制透明:SHAP框架使"黑箱模型"决策过程可追溯,临床医生可直观理解rpoB、katG等关键位点的耐药贡献。

未来需扩大样本量以优化EMB/PZA预测模型,并探索表观遗传等多组学维度。研究开源代码(GitHub: microbial123/MTB-AMR)为全球结核精准诊疗提供新范式,有望将耐药检测周期从数周缩短至数日,加速MDR-TB患者的个体化治疗。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号