
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图神经网络与序列模型融合的药物-靶标结合亲和力预测新方法GS-DTA
【字体: 大 中 小 】 时间:2025年02月10日 来源:BMC Genomics 3.5
编辑推荐:
本研究针对药物-靶标结合亲和力(DTA)预测中存在的分子全局信息缺失和蛋白质远程协同作用忽略等问题,提出了一种整合GATv2-GCN、多层GCN和Transformer的GS-DTA模型。通过动态注意力机制和层次化特征提取,模型在Davis和KIBA数据集上MSE分别达0.213和0.124,CI指标突破0.9,显著提升预测精度,为药物重定位和靶点发现提供新工具。
在药物研发领域,准确预测药物与靶标蛋白的结合强度(Drug-target binding affinity, DTA)是加速新药发现的关键。然而,现有方法存在两大瓶颈:传统SMILES(简化分子线性输入系统)编码易丢失分子拓扑信息;蛋白质序列分析中,远距离氨基酸残基的协同作用常被忽略。这些缺陷导致预测模型对复杂分子结构和功能性蛋白域的处理能力不足,制约了虚拟筛选的可靠性。
河南理工大学软件学院的研究团队在《BMC Genomics》发表研究,提出GS-DTA创新模型。该工作通过融合图神经网络与序列建模技术,构建了多尺度特征提取框架:将药物分子转化为原子级拓扑图,采用GATv2-GCN(动态图注意力网络)捕捉关键原子节点,结合三层GCN(图卷积网络)挖掘层次化结构特征;对蛋白质序列则集成CNN(卷积神经网络)、Bi-LSTM(双向长短期记忆网络)和Transformer,同步解析局部结合位点与长程相互作用。关键技术包括RDKit分子图构建、多头注意力机制和交叉验证策略,使用标准Davis(含30,056组Kd值)和KIBA(118,254组相互作用)数据集进行训练。
Extracting drug features
研究将SMILES字符串转化为原子-化学键拓扑图,节点特征包含原子类型、价态等78维向量。GATv2-GCN通过LeakyReLU激活的动态注意力权重(式2-4)突出关键原子作用,三层次GCN传播实现半径3?内的邻域信息聚合,相较传统GAT-GCN组合模型,MSE降低9.2%。
Extracting protein features
蛋白质序列经128维嵌入后,采用CNN捕获局部保守域,Bi-LSTM建模相邻残基关联,Transformer注意力机制(式10-15)识别序列远端但空间邻近的协同区域。在KIBA数据集上,该模块使rm2指标达0.806,证明其对变构调节位点的捕捉优势。
Performing DTA prediction
特征融合阶段采用全连接层(式16)整合512维药物向量与蛋白质特征,最终预测结果与实验测定值相关性R2>0.7(图2)。消融实验显示,移除任一模块均导致性能下降,其中Transformer的缺失对长程相互作用预测影响最大(CI降低1.3%)。
该研究开创性地将动态图注意力与多尺度序列建模结合,解决了DTA预测中的分子全局表征和蛋白质协同作用解析难题。相比主流方法DeepDTA和GraphDTA,GS-DTA在保持计算效率的同时,对复杂结构药物的预测误差降低18.7%。未来通过整合蛋白质三维结构数据,有望进一步突破膜受体等难成药靶点的预测瓶颈,为AI驱动的药物设计提供新范式。
生物通微信公众号
知名企业招聘