
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ToxBERT:基于注意力与掩码机制的药物不良反应预测框架及其结构解析
【字体: 大 中 小 】 时间:2025年07月05日 来源:Journal of Pharmaceutical Analysis 6.1
编辑推荐:
本研究针对药物不良反应(ADR)预测模型准确性不足和可解释性差的问题,开发了基于Transformer架构的ToxBERT模型。该模型通过注意力机制和掩码语言模型(MLM)处理SMILES分子表征,在QT间期延长(DIQT)、横纹肌溶解(DIR)和肝损伤(DILI)预测中分别达到0.839、0.759和0.664的AUROC值,显著优于传统QSAR方法,并能识别与ADR相关的分子亚结构,为药物安全评估提供了兼具高精度和可解释性的AI工具。
药物安全是关乎公众健康的核心议题,但现有药物不良反应(ADR)预测模型面临双重困境:一方面,传统定量构效关系(QSAR)模型依赖人工选择的分子描述符,存在偏差且难以揭示机制;另一方面,深度学习模型虽能处理简化分子线性输入系统(SMILES)序列,却缺乏解释分子结构与特定ADR关联的能力。更严峻的是,ADR已成为全球第四至第六大死亡原因,而临床前试验难以全面评估药物风险,这促使研究者寻求更精准、可解释的预测方法。
四川大学研究人员在《Journal of Pharmaceutical Analysis》发表的研究中,提出了名为ToxBERT的创新框架。该研究通过改造ELECTRA模型架构,结合多头注意力机制和15-80%动态掩码比例,仅利用阳性样本训练即可区分药物是否诱发QT间期延长、横纹肌溶解或肝损伤。模型在三个独立数据集上的AUROC值超越现有最佳方法1.9-12.4%,并通过注意力权重可视化揭示了氯喹类药物的叔胺基团、他汀类药物的羧酸酯等关键结构警报(SA)。这项突破不仅将ADR预测准确率提升至新高度,更首次实现了从分子亚结构层面解释药物毒性机制。
关键技术方法包括:1) 从DrugBank获取药物SMILES并进行枚举增强;2) 采用改进的MolFormer分词器(56个token)处理分子序列;3) 基于生成器-判别器架构的替换token检测任务;4) 利用美国FDA不良事件报告系统(FAERS)数据进行外部验证;5) 通过t-SNE降维分析分子嵌入特征分布。
【模型性能验证】
在251个DIQT相关药物测试中,ToxBERT召回率达91.3±6.4%,显著高于MolFormer-XL-CNN的0.747 AUROC。特别值得注意的是,对FAERS数据库中PRR>10的高风险药物如利哌替尼、氨基己酸等,模型预测准确率高达70-80%。t-SNE可视化显示,模型能将QT延长药物与非致QT药物明确分簇,仅在边缘区域存在少量重叠。
【结构机制解析】
注意力图谱成功捕获了COVID-19治疗药物羟氯喹的三大风险结构:sp3杂化碳原子(出现率差异+43.4%)、芳基卤化物(+23.8%)和叔胺基团(+48.5%)。对比已撤市药物异丁芬酸与其类似物布洛芬时,模型精准聚焦于后者分子中新增的甲基基团,这一细微差异正是肝毒性差异的关键所在。
【治疗类别差异】
模型在神经系统药物(N类)的DILI预测中表现最佳(召回率88.9%),而对肿瘤药物(L类)的预测相对较弱(69.6%)。研究者推测这可能与联合用药的复杂效应有关,建议后续研究纳入药物相互作用数据。
这项研究开创性地将替换token检测任务应用于ADR预测,其创新性体现在三方面:首先,突破性地实现仅用阳性样本训练即可识别阴性样本;其次,40-70%的高掩码比例使模型能更有效捕捉SMILES的上下文特征;最重要的是,注意力权重的可解释性为药物结构优化提供了直接依据。正如讨论部分指出,未来可通过整合基因组学和给药方案等多元数据,进一步提升对复杂临床场景的预测能力。这项成果不仅为上市后药物监测提供了强大工具,更有望在药物设计阶段规避潜在毒性风险,从根本上降低药物开发失败率。
生物通微信公众号
知名企业招聘