
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Barlow Twins深度神经网络的1D药物-靶点相互作用预测新方法
【字体: 大 中 小 】 时间:2025年02月10日 来源:Journal of Cheminformatics 7.1
编辑推荐:
编辑推荐:本研究针对药物发现中靶点相互作用预测耗时耗力的问题,创新性地结合Barlow Twins自监督学习架构与梯度提升机(GBM),开发出仅需一维输入的BarlowDTI模型。在12个基准测试中10项领先,PR AUC最高提升21%,并通过影响分析方法揭示模型决策机制,为加速药物研发提供高效计算工具。
药物研发过程中,准确预测药物与靶点蛋白的相互作用(Drug-Target Interaction, DTI)是决定成败的关键环节。然而传统实验方法不仅耗时费力,成本也居高不下。虽然计算生物学提供了多种预测方案,但现有方法仍面临三重困境:依赖三维结构数据的模型受限于实验测定难度;纯机器学习方法在有限数据下表现欠佳;而深度学习模型又存在"黑箱"决策的 interpretability 问题。
针对这些挑战,德国慕尼黑工业大学的研究团队在《Journal of Cheminformatics》发表创新成果。该研究巧妙融合自监督学习与经典机器学习优势,开发出BarlowDTI预测系统。通过Barlow Twins神经网络提取分子指纹(ECFP)与蛋白序列(ProstT5)的联合特征,再结合XGBoost分类器,仅需一维输入即实现state-of-the-art性能。在PDBBind等基准测试中,其PR AUC值最高超越现有方法21%,且通过独创的Jaccard相似度分析方法揭示训练样本对预测结果的影响机制,为模型决策提供生化依据。
关键技术方法包括:1)采用Barlow Twins架构(编码器神经元1024-4096,投影层维度512-2048)进行跨模态特征学习;2)整合360万对来自PubChem/ChEMBL的DTI数据构建BarlowDTIXXL扩展模型;3)基于Optuna框架优化XGBoost超参数(学习率1e-8-1.0,最大深度2-12);4)开发基于GBM叶节点索引的Jaccard相似度算法分析训练样本影响力。
模型设计方面,研究通过系统评估7种分子指纹和3种蛋白语言模型(ProtTrans/ProtT5/ProstT5),最终选定ECFP与ProstT5的组合。Barlow Twins的损失函数设计独具匠心,通过交叉相关矩阵Cij实现特征不变性与冗余降低的平衡,其数学表达为LBT=∑(1-Cii)2+λ∑Cij2(λ=5e-5至0.1)。这种设计使模型在BioSNAP数据集上PR AUC达到0.967±0.0004,显著优于纯GBM基线(0.9229)。
性能验证环节展示了三大突破:在Kang等划分的BindingDB数据集上,模型PR AUC值0.7344较次优方法提升14%;对于Davis激酶数据集,预测性能(PR AUC 0.5524)较ConPLex提升21%;特别在"未见蛋白"的严苛测试中,其对人类蛋白的预测ROC AUC达0.9630。消融实验证实,移除Barlow Twins架构将导致性能下降23%,凸显其特征提取的关键作用。
案例研究部分尤为精彩。通过分析疟原虫LipL1(5T8U)与李斯特菌lplA1(8CRI)的共晶结构,发现模型能准确预测配体甲基化导致的结合能变化(与ITC实验数据相关系数ρ=0.89)。更令人惊叹的是,模型通过叶节点相似度分析锁定人类LIPT1蛋白为最具影响力的训练样本,尽管其与靶标序列相似性仅29.7%,但活性位点RMSD<2.07?,揭示模型能捕捉远缘蛋白的结构保守特征。
在虚拟筛选中,BarlowDTIXXL成功从化合物库中优先识别激酶抑制剂,SHAP值分析显示分子与蛋白模态贡献均衡。研究还开创性地证明模型能通过序列数据识别结合位点——当活性位点残基发生突变时,预测置信度下降达47%。
该研究的理论价值体现在三方面:首次将Barlow Twins架构引入DTI预测,证明自监督学习能有效解决数据稀缺问题;建立GBM作为DTI研究的新基准线,挑战了深度学习垄断地位;开发的影响分析方法为黑箱模型提供可解释性工具。实践层面,研究者部署的在线预测平台(https://www.bio.nat.tum.de/oc2/barlowdti)已实现技术转化,其仅需SMILES和氨基酸序列即可运行的特性,将显著降低计算化学门槛。未来工作可探索将该框架扩展到蛋白质-蛋白质相互作用预测,或整合动态构象变化信息以进一步提升预测精度。
生物通微信公众号
知名企业招聘