基于MALDI-TOF质谱与XGBoost机器学习技术的沙门氏菌血清型快速自动化鉴定新策略

【字体: 时间:2025年06月12日 来源:Journal of Clinical Microbiology 6.1

编辑推荐:

  本研究创新性地将基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)与XGBoost机器学习算法相结合,开发出仅需16个特征峰的沙门氏菌血清型鉴定模型(AUC达0.9898)。通过多中心验证(内部/外部验证AUC分别为0.9662/0.9778)及Streamlit平台部署,为传统血清学凝集试验提供高效(灵敏度0.88,特异性0.98)、低成本替代方案,显著提升临床实验室对B/C1/C2/3/D/E/非A-F/肠炎/鼠伤寒等8类血清型的鉴别效率。

  

ABSTRACT
沙门氏菌血清分型在流行病学研究和临床治疗中具有关键作用,但传统血清学凝集方法耗时费力且依赖专业人员。本研究通过整合基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)与机器学习技术,建立了包含692株临床分离株(含2,048张质谱图)的多中心数据集,涵盖B、C1、C2/3、D、E、非A-F、鼠伤寒和肠炎等8类主要血清型。采用SHAP特征选择法从192个初始特征中筛选出16个关键质谱峰(如10,975和8,787 m/z对鼠伤寒血清型鉴别贡献显著),构建的XGBoost模型在训练集中展现出优异性能(AUC=0.9898),其简化版在内/外部验证集中分别保持0.9662和0.9778的AUC值。

INTRODUCTION
沙门氏菌作为全球公共卫生威胁,其血清型特异性与疾病严重程度和抗生素耐药性密切相关。例如,猪霍乱沙门氏菌(C1)和都柏林沙门氏菌(D)更易引发败血症,而肠炎沙门氏菌在中国出现独特的多重耐药克隆。传统White-Kauffmann-Le Minor分型方案需使用150余种诊断血清,操作复杂且需专业判读。尽管MALDI-TOF MS已实现微生物种水平鉴定,但其血清型鉴别准确率仅20%-68%,亟需结合机器学习提升分辨率。

MATERIALS AND METHODS
研究纳入浙江大学医学院附属儿童医院(ZUCH)601株和皖北煤电集团总医院(WCGH)91株沙门氏菌,经37
C培养后使用Bruker MALDI Biotyper系统采集2,000-20,000 Da质谱数据。通过R包MALDIquant进行基线校正(SNIP法)和峰对齐(LOWESS法),最终保留192个特征峰。比较10种机器学习算法后发现,XGBoost在五折交叉验证中表现最优,其16特征简化模型通过Streamlit部署为交互式网页应用(https://predict-salmonella-subtypes.streamlit.app/)。

RESULTS
热图和t-SNE分析揭示不同血清型特征峰强度存在显著差异(如5,491 m/z对D型特异性高)。XGBoost模型在训练集中对肠炎沙门氏菌的识别性能尤为突出(特异性0.9989)。特征相关性气泡图显示5,619与5,680 m/z具有强相关性(r=0.83),但保留这些特征可提升模型鲁棒性。决策曲线分析证实该模型在所有验证集中均具有临床实用价值。

DISCUSSION
相较于自建数据库方案,本模型将血清型鉴定准确率提升至88%-98%。值得注意的是,6,007 m/z在SVM/MLP模型中重要性较高而在XGBoost中未显现,反映算法差异导致的特征权重分布不同。尽管存在批次效应,跨中心验证结果证实模型稳定性。未来需扩充罕见血清型(如A型、伤寒沙门氏菌)训练数据,并验证其在bioMérieux等其他质谱平台的适用性。该技术为食源性疾病暴发追踪和精准用药提供了自动化解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号