用于识别标志物并预测大肠杆菌抗菌素耐药性的机器学习方法
《Canadian Journal of Microbiology》:Machine learning methods to identify markers and predict antimicrobial resistance in Escherichia coli
【字体:
大
中
小
】
时间:2025年12月13日
来源:Canadian Journal of Microbiology 1.6
编辑推荐:
本研究利用4300个致病性大肠杆菌全基因组序列,训练了XGBoost、支持向量机(SVM)和人工神经网络(ANN)三种机器学习模型,基于11-mer和25-mer的k-mer计数预测抗生素耐药性(AMR)。模型平均准确率达93.6%-92.8%,优于AMRFinderPlus(63.9%)和ResFinder(75.7%),并识别出若干已知和潜在的AMR标记,为实时诊断和监测提供了高效工具。
该研究旨在通过机器学习方法(ML)预测大肠杆菌(*Escherichia coli*)的抗生素耐药性(AMR),并探索基因组新标志物。研究整合了4300株大肠杆菌的全基因组测序(WGS)数据,结合实验室测定的耐药性数据,开发了基于k-mer的预测模型,并与现有数据库方法进行比较。以下为关键发现与解读:
### 1. **研究背景与意义**
大肠杆菌是导致多种人类感染的主要病原体,其耐药性问题的加剧使得治疗成本上升、住院时间延长。传统耐药性检测依赖实验室培养和药敏测试,耗时长且成本高。近年来,基于WGS的数字化分析成为流行病学监测和耐药性研究的重要工具。然而,现有数据库方法(如AMRFinderPlus、ResFinder)存在局限性:依赖已知耐药基因数据库、难以发现新机制、且需定期更新以匹配新发现的耐药基因。
### 2. **研究方法**
- **数据来源**:整合公共数据库(如欧洲核苷酸存档库)和加拿大农业及食品部提供的636株本地分离株,覆盖英国、加拿大、美国及多种动物来源(如牛、猪)。
- **模型构建**:采用三种ML模型——梯度提升决策树(XGBoost)、支持向量机(SVM)和人工神经网络(ANN)——基于11-mer和25-mer的k-mer频率矩阵进行训练。其中,11-mer模型通过嵌套交叉验证优化参数,25-mer模型因计算资源限制采用默认参数。
- **特征选择**:利用方差分析(ANOVA)筛选关键k-mer,减少冗余特征。对于11-mer模型,测试了100至5000个特征的数量,最终选择最优数量;25-mer模型固定为1000个特征。
- **验证方法**:在独立验证数据集(德国、丹麦的390株和95株大肠杆菌)中测试模型性能,并与ResFinder、AMRFinderPlus的预测结果对比。
### 3. **主要研究结果**
#### (1)模型性能表现
- **训练集性能**:XGBoost平均准确率达93.6%,SVM为92.7%,ANN为92.8%。部分模型表现突出,如针对氟喹诺酮类抗生素(如恩诺沙星)的ANN模型准确率达100%。
- **验证集表现**:在德国(DE)和丹麦(DK)数据集中,XGBoost、SVM和ANN的平均准确率分别为81.6%、79.9%、81.2%,显著优于ResFinder(94.7%)和AMRFinderPlus(63.9%)。但部分抗生素(如哌拉西林/他唑巴坦)的准确率较低(XGBoost仅58.8%)。
#### (2)模型优势与局限
- **优势**:
- **快速预测**:基于k-mer的模型可在无需实验室测试的情况下快速预测耐药性,尤其适用于WGS数据的自动化分析。
- **发现新标志物**:通过25-mer模型,识别出多个已知和潜在的新耐药性标志物。例如,插入序列IS6100与多重耐药基因(如β-内酰胺酶基因)共定位,可能通过调控基因扩散加速耐药性传播。
- **多抗药物预测**:模型可同时预测34种抗生素的耐药性,而传统方法通常需单独分析。
- **局限**:
- **数据偏差**:训练数据中人类来源的B2谱系占比高达44.8%,可能导致模型在动物源或低丰度谱系(如 cryptic clade I)中泛化能力不足。
- **地理与时间差异**:验证数据集(如DK的2016年数据)与训练集(覆盖1970-2018年)在时空分布上存在差异,可能影响模型性能。
- **中间分类缺失**:实验室数据中常缺乏中间耐药性(Intermediate)分类,导致模型在极端条件(如仅含敏感或耐药样本)下表现下降。
#### (3)与传统数据库方法的对比
- **ResFinder**:依赖已知耐药基因的预存数据库,对新型耐药机制识别不足。例如,针对氟喹诺酮类药物,ResFinder因未包含gyrA和parC突变位点而准确率较低。
- **AMRFinderPlus**:基于BLAST和隐马尔可夫模型,但对非典型k-mer特征(如插入序列)响应有限,平均准确率仅为63.9%。
- **ML模型优势**:通过k-mer的统计特征捕捉隐性耐药机制,如IS6100与blaTEM的共定位,而传统方法可能漏检此类关联。
### 4. **新发现的耐药性标志物**
- **已知基因的新突变位点**:例如,gyrA基因的C→T突变(密码子83丝氨酸→异亮氨酸)与氟喹诺酮类耐药性相关,而parC基因的G→T突变(密码子80丝氨酸→亮氨酸)同样影响氟喹诺酮类药物敏感性。
- **非典型基因区域**:如插入序列IS6100,其与多重耐药基因(如blaCMY-2、tetM)共定位,可能通过改变基因表达环境间接增强耐药性。
- **跨抗生素共选现象**:例如,庆大霉素(GEN)的耐药预测与qacEdelta1(多抗性相关基因)相关,提示某些基因可能通过非直接机制影响多种抗生素的敏感性。
### 5. **讨论与未来方向**
- **模型泛化性挑战**:验证数据集中罕见谱系(如 cryptic clade I)的缺失可能导致模型在偏远地区或特殊人群中应用受限。需进一步纳入全球多地区样本以提升适应性。
- **动态更新需求**:耐药机制随时间推移和药物使用变化,模型需定期更新以纳入新基因或突变位点。
- **技术整合潜力**:结合便携式测序设备和ML模型,可在临床或农业现场实现实时耐药性检测,例如针对产超广谱β-内酰胺酶(ESBLs)的尿路感染患者,快速匹配最佳抗生素(如呋喃妥因)。
- **研究空白**:当前模型依赖k-mer频率统计,未直接解析基因调控网络。未来可结合转录组或蛋白质组数据,探索耐药性分子机制。
### 6. **实际应用价值**
- **流行病学监测**:通过整合WGS和ML预测,可实时追踪耐药性菌株的传播路径,例如在动物源性大肠杆菌暴发中快速识别高危血清型(如O25:H4)。
- **个性化治疗**:针对产ESBLs的尿路感染患者,ML模型可辅助选择对多重耐药机制更有效的抗生素(如环丙沙星联合呋喃妥因)。
- **抗药基因发现**:自动化挖掘潜在新标志物(如IS6100),可加速抗药基因的鉴定与数据库更新。
### 7. **结论**
本研究证实ML模型在预测大肠杆菌耐药性方面显著优于传统数据库方法,且能发现与已知机制关联的新标志物。然而,模型性能受限于数据多样性、实验室分类标准差异以及算法本身的局限性。未来需结合多组学数据、动态更新模型,并扩大验证数据集的覆盖范围,以实现更广泛的应用。这一工作为“无监督”耐药性检测工具的开发奠定了基础,有望在One Health框架下提升全球卫生系统的响应效率。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号