
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于WHO突变目录与全基因组测序的集成模型显著提升结核分枝杆菌耐药性预测精度
【字体: 大 中 小 】 时间:2025年03月27日 来源:Genome Medicine 10.4
编辑推荐:
耐药结核病(DR-TB)诊断面临巨大挑战,复旦大学等机构研究人员通过整合WHO突变目录与四种WGS分析工具,开发出集成机器学习模型。该模型对10种抗结核药物的预测AUC达93.4%,尤其显著提升二线药物预测性能(AUC 91.8%),为临床耐药检测提供了更精准的分子诊断方案。
结核病仍是全球重大公共卫生威胁,而耐药结核病(DR-TB)的蔓延使得防控形势更加严峻。世界卫生组织(WHO)最新报告显示,2023年全球约41万人罹患耐多药/利福平耐药结核病(MDR/RR-TB),但诊断率不足40%,治疗成功率仅63%。传统表型药敏试验(DST)耗时长且需要生物安全实验室,而现有分子诊断方法如Xpert MTB/RIF仅能检测有限耐药突变。全基因组测序(WGS)技术虽能全面扫描结核分枝杆菌(MTB)基因组,但现有预测工具在敏感性和特异性方面仍存在明显局限。2023年更新的WHO突变目录为基因型DST提供了新标准,但其单独应用的效能尚未系统评估。
复旦大学等机构的研究团队在《Genome Medicine》发表重要研究,首次系统比较了WHO突变目录与四种主流WGS分析工具(TB Profiler、SAM-TB、GenTB和MD-CNN)的预测性能。通过整合全球36,385株MTB分离株的WGS和表型DST数据,研究人员发现深度学习方法MD-CNN表现最佳(AUC 92.1%),而WHO目录特异性最高(97.3%)。基于此,团队创新性地采用堆叠(Stacking)集成策略,构建了新型机器学习模型,并在中国深圳和西班牙巴伦西亚的860株临床分离株中验证了其优越性。
关键技术方法包括:1)全球多中心数据集分析(36,385株MTB,覆盖10个谱系);2)标准化WGS分析流程(使用bowtie2比对、SAMtools/Varscan检测SNP);3)五类基线方法比较(WHO目录、TB Profiler、SAM-TB、GenTB和MD-CNN);4)双层堆叠集成模型开发(基分类器+决策树元分类器);5)外部验证(中国和西班牙临床分离株)。
研究结果部分,"MD-CNN outperformed the other baseline methods"显示,在十种药物预测中,MD-CNN总体AUC显著高于其他方法(p<0.05),其中利福平(RIF)预测最佳(AUC 96.4%),乙硫异烟胺(ETO)最差(77.1%)。值得注意的是,一线药物预测准确率(91.6%)显著高于二线药物(86.4%)。
"Discrepancies between phenotypic and genotypic DST"揭示了基因型DST的主要误差来源:43.4%的ETO耐药表型未被基因型检测到,提示现有目录存在突变盲区;而32.2%的乙胺丁醇(EMB)"基因型耐药/表型敏感"误差主要源于embB M306I突变(占40.8%)。研究人员还鉴定出7个新型ETO耐药候选突变。
"Enhanced performance of drug resistance prediction by stacking ensemble model"部分显示,集成模型将总体AUC提升至93.4%,敏感性提高至84.1%。特别对二线药物预测改善显著(AUC 91.8%),其中吡嗪酰胺(PZA)和ETO的预测提升最为明显(AUC分别达92.9%和88.2%)。外部验证证实集成模型优于所有基线方法。
结论与讨论指出,该研究首次证实更新的WHO目录单独使用不优于现有工具,但通过集成学习可显著提升预测精度。集成模型对二线药物的改进尤为关键,因为这些药物的耐药机制复杂且临床决策更依赖基因检测。研究发现的7个新型ETO耐药候选突变为完善WHO目录提供了新线索。值得注意的是,模型在保持高特异性(95.4%)的同时提升敏感性(84.1%),这对减少漏诊更具临床价值。该成果为建立国际通用的基因型DST标准提供了重要依据,也为开发新一代结核病分子诊断工具指明了方向。未来研究应重点关注二线药物耐药机制解析和更大规模的前瞻性临床验证。
生物通微信公众号
知名企业招聘