aiGeneR 3.0:基于深度长短期记忆网络与新一代测序数据的大肠杆菌尿路感染耐药株鉴定及多药耐药预测模型的优化研究
《Frontiers in Genetics》:aiGeneR 3.0: an enhanced deep network model for resistant strain identification and multi-drug resistance prediction in Escherichia coli causing urinary tract infection using next-generation sequencing data
【字体:
大
中
小
】
时间:2025年10月24日
来源:Frontiers in Genetics 2.8
编辑推荐:
本刊推荐:本研究提出了一种名为aiGeneR 3.0的增强型深度学习模型,该模型利用长短期记忆(LSTM)网络处理新一代测序(NGS)数据,实现了对引起尿路感染(UTI)的大肠杆菌(E. coli)耐药株的精准鉴定及多药耐药(MDR)预测。模型在高度不平衡的小型数据集上表现出色,分类准确率达93%,多药耐药预测准确率高达98%。该研究创新性地将单核苷酸多态性(SNP)层面的洞察与深度学习(DL)相结合,为抗生素管理(AMR)提供了具有潜在临床应用价值的工具,其简化的架构和较低的计算成本是其显著优势。
传染病是全球健康的重大威胁,而抗菌素耐药性(AMR)加剧了这一问题。大肠杆菌(E. coli)是尿路感染(UTI)的常见病原体,因此研究其抗生素耐药基因(ARGs)对于识别和应对日益严重的耐药性问题至关重要。
机器学习(ML),特别是深度学习(DL),已被证明在快速检测感染预防菌株和降低死亡率方面非常有效。本研究提出了aiGeneR 3.0,这是一种简化而有效的DL模型,采用长短期记忆(LSTM)机制来识别大肠杆菌中的多药耐药株和耐药株。aiGeneR 3.0识别和分类抗生素耐药性的范式是一个结合了质量控制的深度学习模型串联链路。研究采用交叉验证来衡量aiGeneR 3.0的ROC-AUC、F1分数、准确度、精确度、灵敏度、特异度和整体分类性能。研究假设aiGeneR 3.0在抗生素耐药性检测方面将比其他基线DL模型更有效,且计算成本更低。研究还评估了模型的记忆和泛化能力。
aiGeneR 3.0能够处理不平衡和小型数据集,并以简单的模型架构提供更高的分类准确度(93%)。其多药耐药预测能力的准确度达到98%。aiGeneR 3.0利用下一代测序(NGS)数据的深度网络(LSTM),使其适用于未来新型抗生素的研发和不断增长的耐药性识别。
这项工作独特地将SNP层面的洞察与DL相结合,为指导抗生素管理提供了潜在的临床效用。它还为未来的AMR分析提供了一个稳健、泛化且可记忆的模型。
抗菌素耐药性(AMR)是全球公共卫生领域最令人担忧的问题之一。据世界卫生组织(WHO)估计,2019年有超过70万人死于耐药性疾病,到2050年,这一数字可能增至1000万。识别抗生素耐药基因(ARGs)对于发现AMR模式、个性化治疗和药物发现至关重要。尿路感染(UTI)是严重威胁全球健康的感染性疾病之一,而大肠杆菌是UTI的主要致病菌。如果得不到治疗,许多泌尿系统感染可能导致肾脏损伤等并发症。大肠杆菌菌株中抗生素耐药性的出现加剧了这一问题,限制了可用治疗方案,并对传统的抗菌药物管理理念提出了挑战。全基因组测序数据的日益普及和可负担性,使得抗生素耐药性决定因素的稳健识别及其在专业数据库中的整理成为可能。计算技术随后可以在给定新菌株序列的情况下,在这些资源中搜索已知的致病基因。通过对大肠杆菌进行遗传学分析,通过检测突变、检查全基因组并精确定位特定耐药基因,可以揭示抗生素耐药模式。这种方法有助于理解耐药性的遗传基础、追踪其传播并预测新出现的模式,从而为指导抗生素管理的针对性干预措施提供信息。抗生素耐药性,特别是大肠杆菌等细菌的耐药性,使得UTI成为人类健康的严重关切。UTI是全球最普遍的细菌感染之一,每年发生数百万例。如果不加以治疗,UTI可能导致肾脏感染、败血症以及泌尿系统的长期损害。耐抗生素菌株的出现,尤其是大肠杆菌中的耐药株,加剧了这种危险。需要新的方法来应对UTI中日益增长的抗生素耐药性流行。DNA数据通过遗传见解推动了疾病诊断、个性化医疗、AMR分析和微生物多样性研究等多个领域的进步。深度学习(DL)在处理高维数据、识别复杂关联和整合不同数据源方面表现出色,因此在评估DNA测序数据以识别抗生素耐药性方面表现优异。DL是一种革命性的方法,通过识别独特的耐药谱,提供精准医疗,减少不必要的抗生素治疗需求。DL赋能实时决策支持,允许快速、明智的抗生素选择决策。此外,它有助于早期识别新的耐药趋势,支持预防措施。这项工作有潜力彻底改变利用下一代全基因组测序(WGS)数据管理UTI和识别大肠杆菌耐药模式的方法,为不断变化的抗生素耐药性问题提供有效解决方案。本研究提出了aiGeneR 3.0模型,用于识别大肠杆菌中的多药耐药基因。研究处理了一个高度不平衡的小型数据集,以评估aiGeneR 3.0模型的效能,并将其性能与公认的先进ML和DL模型进行了比较。模型的泛化能力增强了其适应性和稳健性。简化的架构和较低的计算时间是aiGeneR 3.0模型的主要优势。研究假设aiGeneR 3.0可以利用WGS数据降低多药耐药识别的成本和时间。本研究使用的数据集(NGS单核苷酸多态性(SNP)WGS)规模小且不平衡,但aiGeneR 3.0表现异常出色;部署阶段达到的ROC值已经证明了这一点。
研究人员Moradigaravand等人(2018)使用梯度提升决策树在1,681个大肠杆菌菌株中预测抗生素耐药性,取得了91%的成功率。研究人员发现,使用种群结构和基因内容大大提高了预测准确性。这些发现表明,机器学习(ML)作为识别抗生素耐药性的临床工具具有前景。Arango-Argoty等人(2018)提出的DeepARG-SS模型在30个抗生素类别上优于传统方法,召回率达到91%,准确率达到97%。将DeepARG-LS模型应用于MEGARes数据库证实了其高召回率和准确性。这些模型与DeepARG-DB数据库结合使用,可以通过产生抗生素耐药性基因预测来实现更精确的基因识别。Boolchandani等人(2019)探讨了使用ML预测抗生素耐药性的困难和局限性。该研究强调需要建立广泛的数据库,将耐药基因与测试结果联系起来,以提高预测准确性。通过识别Resfams、Resfinder和CARD作为发现耐药基因的有效方法,凸显了不断改进计算方法以对抗抗生素耐药性的重要性。Ren等人(2022a)应用于预测大肠杆菌多药耐药性的多标签分类模型中,ECC模型被证明是最准确的。该研究强调了非染色体遗传变量对于全面了解耐药性的重要性。Gunasekaran等人(2021)使用DL方法对DNA序列进行分类,成功高精度地确定了病毒来源和DNA突变。这项研究证明了DL在多种遗传分析、药物发现和病毒识别任务中的有用性。Ren等人(2022b)提出的深度迁移学习模型在处理小型、不平衡数据集时,显著提高了对 underrepresented groups 的抗菌素耐药性预测准确性。这种策略可能有益于快速诊断和针对性治疗。
在过去十年中,各种工具、质量控制流程和AI模型在AMR分析中日益受到关注。AMR机制非常复杂,需要训练有素的人力进行实验室测试以识别耐药模式、耐药株和多药耐药百分比。此外,耐药株的鉴定过程伴随着巨大的成本和时间。然而,已发现AI模型在耐药株鉴定方面优于传统方法。还发现现有的耐药株鉴定AI研究缺乏包含集成和简化模型架构的比较分析。除此之外,与耐药株鉴定相关的计算成本仍然是一个悬而未决的问题。本研究旨在弥合这一差距,并就预测准确性和计算成本方面,为基于集成DL、迁移学习以及单独简化架构的DL模型的优越性提供证据。此外,从文献中观察到研究人员在小数据集上使用迁移学习(TL)来识别耐药株。本研究旨在以更低的模型复杂性和计算时间实现更有效的结果。
本研究使用的方法、资源和技术旨在实现研究目标。本节旨在清晰、全面地描述实验设计、数据收集和数据分析方法。
本研究中使用的大肠杆菌WGS数据集是公开可用的,收集自GitHub(2025)和Moradigaravand等人(2018)。这两个数据集都包含大肠杆菌K-12菌株WGS的敏感和耐药信息。选择双突变大肠杆菌基因组数据集是因为其实际和临床重要性,因为这些突变通常与环境和临床环境中抗生素耐药性的增加有关。该数据集捕捉了与多类抗生素耐药性相关的变异,反映了耐药菌株的遗传多样性,为理解复杂的耐药机制提供了宝贵的见解。以往的研究主要集中在单一突变或特定于单个分离株的耐药基因上;本研究通过将焦点转向双突变,填补了一个重要的空白。
本研究使用了两个大肠杆菌数据集,其中包括四种抗生素[庆大霉素(GEN)、头孢噻肟(CTX)、环丙沙星(CIP)和头孢他啶(CTZ)]的WGS、SNP和耐药-敏感数据。第一个数据集包含809个大肠杆菌菌株,由Ren等人(2022b)生成。分离株来自人类和动物的临床样本。使用VITEK? 2系统(bioMérieux, Nurtingen, Germany)进行抗菌药物敏感性试验,并根据EUCAST标准评估结果。对CTX、GEN、CTZ和CIP耐药的分离株比例依次为23%、44%、34%和45%。从图3可以看出,本研究使用的数据集在GEN和CTZ抗生素的耐药-敏感菌株方面具有高度不平衡的比例,分别为1:3和1:2。而在考虑所有四种抗生素时,敏感(S)与耐药(R)的比例为1:2(1,188:2048)。
数据质量是各种AI模型性能的关键(Nayak等人,2022;Nayak等人,2023;Swain等人,2023)。Ren, Y.等人开发的数据集(GitHub,2025)对原始WGS数据进行了预处理;它使用BWA-MEM,在使用fastp(v0.23.2)过滤低质量读数后,将清洁读数映射到大肠杆菌参考基因组(大肠杆菌K-12菌株,MG1655)(Chen等人,2018)。使用bcftools(v1.14)通过提取参考和变异等位基因并根据参考等位基因位置合并分离株来发现单核苷酸多态性(SNPs)(Danecek等人,2011;Li和Durbin,2009)。保留在超过一半样本中发现的变异等位基因,并生成SNP矩阵。使用独热编码将矩阵转换为二进制格式,用于进一步的ML分析。
此阶段最为关键,对模型性能贡献最大(Nayak等人,2024;Mohanty等人,2023)。本研究使用了GitHub(2025)开发的数据集。因此,我们重新构建了数据集以满足研究目标。原始数据中的独热编码范围为1-4,而在本研究中,我们将其修改为0.25-1。此外,我们旨在研究这种独热编码对计算成本的影响。
为了识别已获得耐药性的大肠杆菌菌株,我们创建了先进的aiGeneR 3.0模型;该模型基于DL和ML。我们创建的方法是多阶段的,并采用现代技术来提高准确性和稳健性。我们从处理过的下一代测序(NGS)WGS数据(GitHub,2025)开始,这为深入探究提供了坚实基础。我们使用之前开发的质量控制(QC)流程(Nayak等人,2022)来准备数据集。在最后阶段,使用高度训练的深度神经网络(LSTM)和线性回归(LR)来可靠地识别敏感和耐药细菌,并预测任何对研究的四种抗生素中任何一种表现出耐药性的给定菌株的多药耐药可能性。aiGeneR 3.0的设计和执行如图4所示。为了描述基因调控变量与耐药程度之间的关联,我们使用了带有最小二乘优化的线性回归来减少预测误差并识别耐药相关标记。线性回归为深度学习模型的比较提供了基线预测框架,使得aiGeneR 3.0流程在多药耐药分类中更加稳健。最终,使用预定的评估措施集对其效能进行全面评估确保了模型的可靠性。生物学确认也增加了其实际效用的可信度。aiGeneR 3.0模型是一个全面而强大的工具,可能会改变发现大肠杆菌抗生素耐药性的游戏规则。
使用fastp进行测序读数和质量保证(Chen等人,2018)。
采用Bfctools进行变异调用(Danecek等人,2011)。
使用Samtools排序和过滤比对后的读数(Li和Durbin,2009)
让ED为包含SNPs的处理后数据集。 ED = {ed1, ed2, ed3, ……, edn}
为了去除重复项,? = remove duplicates (A)
使用独热编码方法(OHE)为 OHE = OneHotEncode (?)。
确定归一化值在0.25到1之间,如下公式: = 0.25 + 0.75 X (OHE - Min(OHE)) / (Max(OHE) - Min(OHE)) ,其中OH是归一化后的独热编码数据。
通过 aiGeneR3.0 = Initializemodel (θ) 自定义模型。
利用训练集 aiGeneR3.0trained = Train (aiGeneR3.0, Xtrain, Ytrain),训练aiGeneR 3.0模型。
获得预测模型。 aiGeneR3.0predictive = aiGeneR3.0trained(Xtrain)
找出对各种类型抗生素的耐药百分比,公式为 Sres = (1/n) ∑i=1n (?train,i = resistant),其中 ?train,i = resistant 是指示函数,其值为 ?train,i = resistant = { 1, if ?train,i is resistant; 0, if ?train,i is susceptible }
?test = aiGeneR3.0predictive(Xtest).
根据以下公式估算菌株对多种药物的耐药性, Smulti-drug = Estimate_Res (?test)。其中 Estimate_Res () 通过比较预测的耐药概率 ?test 与阈值 Tres 来确定多药耐药性。识别规则如下, Smulti-drug,i = { 1, if ?test,i ≥ Tres (multi-drug resistant); 0, otherwise (non-resistant) }
以 SR_classification = Classify (?test) 作为敏感-耐药菌株获得结果。
Sresistant = (∑i=1m 1(?test,i = resistant)) / m,确定对抗生素耐药的细菌菌株百分比。
使用aiGeneR 3.0的主要步骤是仔细的数据预处理。将不同细菌菌株的基因组序列编码成适合输入神经网络的数值格式。通常涉及使用像独热编码这样的方法将分类遗传数据转换为数值格式(Dahouda和Joe,2021)。提出的架构总共由八层组成,利用了四种类型的层,其中三个是密集层,两个是丢弃层,正则化层、展平层和softmax层各一个构成模型架构。第一、第二和第三密集层分别包含64、64和32个神经元。同样,我们的工作对丢弃层和正则化层使用了多个值。工作中试验的不同正则化值为0.01、0.001和0.0001,丢弃率为0.25、0.5、0.7和0.9。我们提出的LSTM模型局部架构以及其他添加的层,利用随机搜索,如图5所示。
本研究的主要目的是检查和比较我们提出的aiGeneR 3.0模型与不同参数的有效性,以实现利用WGS大肠杆菌NGS数据识别耐药菌株的最佳分类准确性。因此,我们在实施阶段对aiGeneR 3.0的几个参数进行了多次更改。我们在以下小节中讨论实验的一些关键阶段以及我们实现的模型中几个参数的更新,其中一些如表2所示。
提出的aiGeneR 3.0是一个完整的DL和ML模型包,用于识别耐药菌株和预测菌株中的多药耐药性。aiGeneR 3.0的架构简单,比先前提出的用于耐药菌株识别的DL模型复杂度低。在我们的实验设置中,我们使用不同的模型参数实现了几个版本的aiGeneR 3.0,最终提出了消耗更少计算时间并产生最重要结果的架构。在本节中,我们讨论具有不同超参数的aiGeneR 3.0的几个实现版本。
在初始开发阶段,我们正在为我们的分析完善采用LSTM架构的aiGeneR 3.0模型。加入了一个softmax层以促进分类任务。利用0.01的学习率和0.25的丢弃率来优化训练过程并减轻过拟合。为了对模型性能进行全面评估,我们将数据集划分为两个不同的子集:训练集和测试集。训练-测试分割比例为70:30。此外,采用K折交叉验证技术,K=3,以评估模型的泛化能力。通过迭代训练和评估数据集的各种子集,我们成功增强了模型在数据中识别耐药菌株的准确性和可靠性。
在这个实施阶段,我们通过改变几个关键超参数来迭代改进aiGeneR 3.0模型,继续我们的研究。我们将学习率调整为0.001以解决过拟合问题,并将丢弃率提高到0.5。这些变化应促进更多的正则化。为了保持评估过程的一致性,我们以80:20的训练-测试分割比例划分数据集。我们还使用了K折交叉验证方法,K=5,以加强我们的模型评估并彻底检查其泛化能力,从而改进了验证过程。通过这些改进,模型的训练动态得到了微调,使其能够更好地利用NGS数据的特征来识别耐药细菌。
在这个实验阶段,我们不断调整aiGeneR 3.0模型的超参数以使其更好。现在,我们试图通过使用0.0001的学习率在训练期间逐步调整模型权重来找到最佳点。我们将丢弃率提高到0.7,以改进模型正则化并缓解过拟合担忧;这应该导致更多样化和稳健的学习表示。为了在整个评估过程中保持一致性,我们将训练-测试分割比例保持在90:10。为了进一步评估模型在不同数据子集上的效能,我们还使用了更严格的K折交叉验证方法,K=10。这拓宽了我们验证策略的范围。
在我们模型aiGeneR 3.0的所有阶段中,我们一致地获得了8:2训练-测试比例的最佳性能指标,如表2所示。即使在不同的阶段参数组合发生变化,这个比例也始终产生最佳结果。在80%的数据上训练并在剩余的20%上测试后,我们的模型显示出卓越的准确性、精确度、灵敏度和特异性。这种策略确保了泛化能力和模型复杂性之间的平衡,使得在数据集的多个分割上具有可靠的性能。此外,在每个步骤中,正则化策略、丢弃率和K折交叉验证都被系统地探索以提高我们模型的性能。值得注意的是,8:2的训练-测试比例是我们在所有实现中达到最佳结果的稳定基础,尽管参数的变化影响了模型的行为。
除了上述实验,我们还在其他几个阶段实施了我们的aiGeneR 3.0,并微调了模型参数。我们还对上述实验采用了不同的训练-测试分割,并添加了各种其他可能的丢弃率。然而,我们观察到我们的aiGeneR 3.0的每个实施阶段都有不同的模型矩阵,并考虑了最佳性能,这将在第5节(结果)和第6节(讨论)中描述。
本节对aiGeneR 3.0进行了全面的性能评估,并讨论了研究中采用的各种评估过程。我们的研究采用了独特的方法组合:功效分析、实证分析和模型泛化评估。实证分析评估模型在现实情况下的实际价值,而功效分析则评估其检测有意义效应的能力。模型泛化分析侧重于其从训练数据中获取知识并调整到各种未见过的数据集的能力。这种全面的评估技术将揭示aiGeneR 3.0的复杂细节,提供其有效性和稳健性的见解。
功效分析是一种统计方法,用于确定研究达到指定统计功效程度所需的最小样本量(Nayak等人,2024;Jamthikar等人,2020)。在深度学习模型领域,功效分析至关重要,因为它允许在保持所需置信水平的同时,估计有效检测模型性能中显著影响或差异所需的样本量。
我们进行了一项功效分析,以确定精确计算总体比例所需的最小样本量。实验采用(Jamthikar等人,2019;Skandha等人,2020)中描述的方法进行。样本量计算公式,用符号Sn表示,如公式1所示: Sn = [ (z*)^2 × (p?(1-p?) / MoE^2) ] (1)
在此情况下,MoE代表误差幅度,p?表示人群中特征的估计比例,z*指的是与相关置信水平相关的Z分数。MoE^2通过置信区间宽度的一半计算。我们为实验选择了0.5的比例和95%的置信水平。使用MedCalc(2025)进行的功效分析表明,该研究的样本量(809)超过了达到预期统计功效和正确分类水平所需的量。所用数据集的最小样本量为271(68个敏感,203个耐药),小于可用数据。
混淆矩阵是一个真实类别到预测类别的矩阵,具有多个评估标准,是性能参数的主要目标。TP和FP分别代表混淆矩阵中的真阳性和假阳性。类似地,TN和FN分别代表真阴性和假阴性。预测有四种类型:TP,准确预测耐药样本为耐药;TN,准确预测非耐药样本为敏感;FP,错误预测敏感样本为耐药;FN,错误预测耐药样本为敏感。
本研究研究的分类性能指标包括准确度(Acc)、精确度(Pre)、特异度(Spe)、灵敏度(Sen)、F1分数(F1)、马修斯相关系数(MCC)和曲线下面积(AUC)。有效预测数除以输入样本总数即为准确度,范围从1到4(数据集A),而第二个数据集包含独热编码。召回率是阳性观察值中被预测为阳性的比例与总阳性观察值的比例。F1是精确度和召回率的加权平均值。所有模型指标均基于以下公式(公式2-7)计算。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号