MCT-ARG：基于多通道Transformer模型的抗生素抗性基因识别与分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Science of The Total Environment》：MCT-ARG: Identification and classification of antibiotic resistance genes based on a multi-channel Transformer model

【字体：大中小】 时间：2025年11月11日 来源：Science of The Total Environment 8

编辑推荐：

　　抗生素耐药基因（ARG）的快速精准检测是应对耐药性公共卫生危机的关键。本研究提出多通道Transformer框架MCT-ARG，整合蛋白质一级序列、二级结构及相对溶剂可及性（RSA）三模态特征，通过双约束正则化机制优化注意力分配，显著提升分类性能。在27,022条ARG序列和54,895条非ARG序列的测试中，MCT-ARG实现二分类AUC-ROC达99.23%，MCC为92.74%；多分类准确率达92.42%，宏观AUC-PR达99.65%，较DeepARG等模型提升26.2%。可解释性分析显示模型关注的进化保守区域与已知催化位点高度吻合。该方法在 metagenomic 数据中成功检测低同源ARG，为耐药基因监测和新型抗生素设计提供工具。

　　抗生素耐药基因（ARGs）的全球传播对公共卫生构成了严重威胁。现有基于序列同源性或浅层机器学习的ARG预测方法往往难以捕捉非序列特征，并且缺乏可解释性，这限制了对新型耐药机制的发现。为了解决这些问题，本文提出了一种名为MCT-ARG的多通道Transformer框架，该框架通过整合蛋白质的一级序列、预测的二级结构和相对溶剂可及性（RSA）信息，构建了全面的多模态表示，从而提升ARG预测的准确性与机制理解的深度。MCT-ARG利用多头自注意力机制，有效建模不同模态之间的长程依赖关系。此外，通过引入双约束正则化策略——结合熵最小化和局部连续性约束——增强了对功能相关残基的关注。实验评估表明，MCT-ARG在二分类任务中达到了优异的AUC-ROC值（99.23%）和MCC值（92.74%），在15类抗生素耐药性分类中，准确率达到92.42%，宏观AUC-PR值为99.65%。即使在类别不平衡的情况下，MCT-ARG也表现出良好的鲁棒性（MCC=90.97%）。可解释性分析揭示了MCT-ARG能够学习与已知催化基序和活性位点相一致的进化保守区域和功能关键区域。总体而言，MCT-ARG在预测精度、鲁棒性和可解释性方面均优于当前最先进的模型。该框架以及整理的ARG数据库为耐药监测、功能注释和新型抗菌剂的合理设计提供了宝贵的资源。代码和数据可通过GitHub访问。

本文主要探讨了抗生素耐药基因（ARGs）识别和分类的最新进展。抗生素的广泛使用导致了耐药性的迅速传播，成为21世纪公共卫生的关键挑战。根据世界卫生组织（WHO）2022年的全球耐药性监测报告，耐药细菌引起的感染每年直接导致超过127万人死亡，如果不采取有效干预措施，这一数字预计将在2050年达到每年1000万。抗生素耐药基因作为耐药性传播的核心分子载体，广泛存在于致病菌、环境微生物和人类共生菌中，通过水平基因转移（HGT）形成复杂的耐药组网络。这种传播加速了多重耐药（MDR）细菌株的出现和扩散，从而严重削弱现有抗生素的治疗效果。因此，开发高精度的ARG识别工具对于耐药监测、新型抗菌药物发现和医疗环境中的感染控制具有紧迫的科学和实践意义。

传统的抗生素敏感性测试（AST）通过评估微生物在不同抗生素浓度下的生长抑制情况来检测表型耐药性。然而，AST耗时（通常需要24–48小时），无法检测未表达的耐药决定因子，并且不适用于无法培养的微生物群落。功能宏基因组学则通过构建和筛选来自环境或临床样本的宏基因组库，直接识别新型ARGs。尽管其潜力巨大，但该方法技术要求高且劳动密集，这限制了其可扩展性。

基于序列相似性的生物信息学工具（如BLAST、Bowtie、HAlign和DIAMOND）通过将查询序列与参考数据库进行比对来识别ARGs。尽管这些方法在某些方面表现良好，但它们依赖于现有的ARG数据库，常常无法检测序列差异显著的新型或远源ARGs。此外，使用固定的全局相似性阈值可能会增加假阴性率。近年来，基于深度学习的模型在ARG预测中表现出色，能够自动学习有意义的序列特征。例如，DeepARG、HMD-ARG、ARGNet和ARG-SHINE等模型在提升预测性能方面展现了显著优势。然而，当前主流模型主要依赖于氨基酸或核苷酸序列，忽视了关键的结构和生物物理特征，如二级结构和相对溶剂可及性（RSA）。缺乏这些结构信息可能限制这些模型在识别低序列同源性ARGs时的泛化能力，使其更容易受到序列变异的影响，从而成为预测准确性的瓶颈。

为了解决这些问题，本文提出了一种新颖的多通道Transformer框架MCT-ARG。该架构首次将蛋白质的一级序列、预测的二级结构和RSA信息深度整合，构建了协同的多模态特征表示。通过多通道特征提取、多头自注意力机制建模跨模态依赖关系以及正则化策略增强特征聚焦，MCT-ARG旨在全面捕捉ARGs的序列-结构-功能关系。这种方法显著提升了分类性能，特别是在识别低同源性和新型ARGs方面，为精准ARG表征和机制理解提供了有前景的计算解决方案。

为了确保数据的多样性，本文整合了六个公开的ARG数据库，包括CARD、AMRFinder、ResFinder、DeepAR、MEGARes和HMD-ARG，构建了一个包含48,615条ARG氨基酸序列的初始数据集。通过使用CD-HIT（100%同源性阈值）消除序列冗余，最终得到一个包含27,022条独特ARG序列的整理核心数据集。根据已知的耐药机制，这些序列被系统地分类为43个不同的抗生素耐药类别。其中，β-内酰胺类（29.9%）、多重耐药类（19.1%）和巴卡特拉耐药类（15.6%）是主要类别。MCT-ARG数据库覆盖了43个耐药类别，超越了两个常用的参考数据集：DeepARG-DB（28个类别；12,279条序列）和HMD-ARG-DB（33个类别；17,282条序列）。值得注意的是，26个类别在所有三个数据库中都保持一致。

为了进一步减少冗余并保留序列多样性，本文采用CD-HIT在90%序列同源性阈值下进行二次聚类。较低的阈值会导致过于粗略的聚类，显著减少代表性ARG聚类的数量，并可能遗漏重要的序列变异。90%的阈值产生了6200个独特的聚类单元。数据集的划分严格遵循聚类级别的分离：聚类被随机分配到训练集、验证集和测试集（8:1:1比例），确保每个聚类仅存在于一个分区中。这种策略有效减少了冗余导致的评估偏差。

为了构建高置信度的非ARG数据集，本文随机选择了70,000条蛋白质序列，并使用CD-HIT（90%同源性阈值）消除这些序列中的冗余。随后，通过严格的同源性过滤（使用DIAMOND，参数：≥30%同源性，≥80%查询覆盖，E值≤1e-10）排除与ARGs有显著相似性的序列。最后，通过InterProScan筛选出不含耐药结构域的序列，并进行人工校对（例如β-内酰胺酶催化位点、四环素外排基序）。最终的数据集包含54,895条非冗余、非ARG序列，为模型开发提供了平衡的负参考。

MCT-ARG的架构采用多头自注意力机制和前馈神经网络（FFN）来提取特征。首先，多头自注意力机制计算标准化蛋白质和二级结构序列中不同位置表示之间的关系，从而生成包含上下文信息的新特征表示。随后，前馈网络对自注意力输出进行非线性变换，进一步提取复杂的特征。通过堆叠这些层，MCT-ARG逐步从蛋白质序列、二级结构和RSA信息中提取深层特征。

为了增强模型的特征捕捉能力，本文引入了双约束正则化策略。该策略包括熵最小化和局部连续性约束。熵最小化促使模型将注意力集中在少数关键位置，从而减少无关区域的噪声；局部连续性约束则通过最大化注意力权重与高斯核相似度，促进连续残基间的协作相互作用。通过调整这两个正则化参数，模型能够在注意力集中和局部平滑之间取得平衡。这种双约束正则化策略显著提升了模型在识别关键残基和增强区分能力方面的表现。

在性能评估方面，MCT-ARG在严格划分的训练、验证和测试集（8:1:1比例）上进行了测试。模型训练使用Adam优化器，初始学习率为0.001，批量大小为64，最大训练轮数为100轮。早停策略（耐心=20）防止了过拟合。通过消融实验，系统评估了不同损失权重组合对模型性能的影响，最终确定了交叉熵损失权重和局部连续性损失权重。所有训练和评估过程均在NVIDIA 4090 GPU加速硬件（CUDA 12.6）上进行。

在独立测试集上，MCT-ARG与五种代表性的抗生素耐药预测工具（BLAST、DIAMOND、RGI、ARG-SHINE和DeepARG）进行了比较。评估包括两个任务：（1）区分ARGs与非ARGs的二分类任务；（2）将ARGs分类为15个抗生素耐药类别。性能通过精确度、召回率、准确率和F1分数进行量化。

结果表明，传统的基于同源性的工具如BLAST和DIAMOND实现了完美的精确度（1.0000），但召回率较低（0.60），导致较高的假阴性率。RGI表现出类似的保守特征（召回率=0.4349）。DeepARG将召回率提升至0.6709，但其整体F1分数仍低于0.75。相比之下，MCT-ARG实现了精确度0.9760、召回率0.9230和F1分数0.9487，有效减少了假阴性的同时保持了较低的假阳性，从而展现了更优的平衡性和鲁棒性。

在多类别分类任务中，MCT-ARG的F1分数达到0.9240，相比最佳基线方法（DeepARG，F1=0.7320）提升了26.2%。与基于同源性的方法（如BLAST和DIAMOND）相比，MCT-ARG在多类别分类任务中表现出更优的类别分辨率。RGI仍然显示出高精确度但低召回率的特征，而ARG-SHINE在该任务上几乎无效（F1≈0.3332）。这些结果突显了传统同源性方法在处理高序列多样性或未被表征的ARG类别时的固有局限性。MCT-ARG在平衡假阳性和假阴性方面展现出更强的鲁棒性。在氨基糖苷类抗生素耐药基因中，MCT-ARG的指标保持在生物学合理范围内（精确度=0.7757，召回率=0.9326，F1=0.8469），反映了跨指标的一致性。这种稳定性表明，MCT-ARG在处理复杂、分布不均的ARG类别时具有更强的泛化能力。值得注意的是，MCT-ARG在传统上具有挑战性的类别（如fosfomycin）中取得了显著的提升。

为了进一步验证MCT-ARG在识别新型ARGs方面的泛化能力，本文利用了两个独立权威数据集：由Berglund等人（2017）整理的76条金属β-内酰胺酶（MBL）基因，以及由Marathe等人（2019）报告的21条独特的MBL基因。关键的是，这两个数据集均未包含在MCT-ARG的训练中。通过DIAMOND进行的全对全BLASTP同源性搜索显示，MBL基因的序列冗余度较高（中位数配对同源性为98.20%；平均值为89.96%），仅有8.8%的序列对同源性低于60%。通过严格标准——（1）配对同源性<60%，（2）对齐覆盖率>50%，（3）E值<1e-10——筛选出了一组51条MBL基因作为“新型”候选序列。结果表明，MCT-ARG对这51条低同源性序列实现了100%的召回率，并将其正确分类为β-内酰胺酶，表明其在识别低同源性、潜在新型ARGs方面具有强大的泛化能力。

为了评估MCT-ARG在真实世界宏基因组数据中的适用性，本文选取了六份公开的土壤宏基因组样本（SRR24488719–SRR24488724）进行验证。所有原始测序读数经过质量控制和修剪后，使用MEGAHIT进行组装（v1.2.9，参数：–min-contig-len=1000，--meta-sensitive，--memory=0.95）。基因预测使用Prodigal（?p meta模式），随后使用MCT-ARG、RGI和DeepARG对蛋白质序列进行ARG识别。为了减少噪声并控制假阳性风险，MCT-ARG预测的ARG序列通过DIAMOND与MCT-ARG-DB进行比对，参数为--query-cover 80，--subject-cover 80，--more-sensitive和--evalue 1e-10。基于比对一致性和跨工具交叉验证，将同源性≥80%的ARG定义为高置信度匹配，符合常用的80–90%阈值，以确保低假阳性率。结果表明，MCT-ARG在所有样本中检测到的ARG数量显著高于RGI和DeepARG。

为了揭示模型的决策机制，本文采用双维度框架进行分析：（1）编码表示分析探讨内部注意力模式；（2）功能预测分析评估突变响应机制。研究聚焦于测试集中的代表性基因，包括β-内酰胺酶（CTX-M-15、BcII、OXA-48）、aac(6′)-I（氨基糖苷耐药）和uppP（巴卡特拉耐药）。通过计算嵌入向量在不同输入通道（氨基酸序列、二级结构、相对溶剂可及性）中的L2范数，量化了模型的注意力。较高范数表示对应位置的表示强度更高，意味着模型对该位置的关注度更高。结果表明，MCT-ARG不仅准确捕捉了CTX-M-15基因中的经典催化基序SXXK，还显著关注了关键非催化残基，如E169和N173，这些残基调节催化效率和热稳定性，以及R64和N247，这些残基对维持催化功能至关重要。在BcII基因中，序列通道聚焦于C121和C198，与已知的Zn2?配位核心完全一致；二级结构通道突出了223–241位的β11–α4环，这是底物结合和金属稳定的关键区域。此外，RSA通道突出了H118和K201，分别对应Zn2?配位三联体和抑制剂结合位点。对于OXA-48，序列通道强调S118，该残基在水解过程中稳定催化水分子，从而促进高效的β-内酰胺水解。二级结构通道则聚焦于69–72位的残基，包括S70，该残基已被确认直接参与酰基中间体的形成。对于aac(6′)-I，序列通道突出了N157、R159、R194和A199，这些残基与UniProt中注释的辅酶A和Ca2?结合位点有显著重叠。此外，RSA通道主要关注193–199位区域，这与UniProt中注释的金属离子结合位点一致。对于uppP，MCT-ARG准确识别了关键催化残基E17、H30和S173，这些残基的突变已被实验证实会破坏酶活性。总体来看，MCT-ARG在不同通道上的注意力模式与实验验证的功能残基高度一致，使得模型能够识别催化残基以及活性位点周围的调节残基，从而为耐药决定因子提供机制解释。

在突变响应分析中，本文系统评估了突变对模型预测的影响。通过构建位置特异性评分矩阵（PSSM），量化了每个位点的保守性。生成一个全面的单点突变库，通过替换所有残基为20种标准氨基酸。训练好的MCT-ARG模型预测了所有突变相对于野生型的耐药概率变化（ΔP）。同时，通过ΔPSSM（突变引起的PSSM评分变化）量化了进化影响，其中强烈负值表示进化上不利的替换。全局分析显示，ΔP与ΔPSSM之间存在显著但较弱的正相关（Spearman's ρ=0.198，p<1e-49），表明模型部分捕捉了进化信号。当专注于最保守的10%位点时，这种相关性显著增强（ρ=0.359，p<1e-18），显示了模型在进化约束位点上对扰动的更高敏感性。分子对接模拟（使用AutoDock Vina）确认了这些区域与预测的配体结合位点相邻，支持其结构和功能的重要性。

尽管MCT-ARG在ARG识别中表现出色，但其多通道架构使参数量比单通道模型增加了约3倍。在实际宏基因组应用中，短读长和碎片化组装可能导致预测偏差和假阳性率上升。由于MCT-ARG是基于全长蛋白质序列训练的，直接应用于短片段可能会偏离训练分布。为此，本文实施了一种基于同源性阈值的后处理策略：同源性≥80%的预测被视为高置信度ARGs，而同源性在60%到80%之间的预测则作为候选ARGs，供进一步验证。这种方法有效平衡了灵敏度与噪声减少及假阳性控制。

未来的研究可以沿着多个方向拓展MCT-ARG的工作。在特征层面，整合蛋白质三级结构、物理化学性质和表观遗传修饰信息可以建立更全面的多模态表示系统。在算法优化方面，结合预训练语言模型和迁移学习技术可以提升低资源场景下的适应性；开发动态注意力机制则可以增强对短程和长程相互作用的建模能力。在应用层面，将MCT-ARG与宏基因组测序技术结合，开发快速筛选流程，可能加速从实验室到临床的耐药监测转化。

本文提出的MCT-ARG方法为基于深度学习的ARG识别提供了新的方法论框架。其多模态融合和可解释性分析策略可以扩展到其他生物分子功能预测领域，为阐明药物耐药性演化机制和设计新型抗生素提供理论支持。通过持续优化模型架构和扩展特征维度，MCT-ARG有望成为耐药监测和精准医学的重要工具。

联系信箱：

粤ICP备09063491号

热点排行