
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AE+GAE混合模型:图神经网络回归中结构与语义特征检测的创新方法
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9
编辑推荐:
针对现有图神经网络(GNN)在药物效力预测中忽视节点属性与局部结构关联异质性的问题,研究人员提出AE+GAE混合模型,通过自动区分结构依赖型与语义独立型特征,显著提升pIC50 和结合亲和力预测精度,为药物发现提供新范式。
在生物医药领域,准确预测药物与靶蛋白的相互作用强度是药物研发的核心挑战。传统方法依赖耗时费力的实验测定结合亲和力(Binding Affinity)和半数抑制浓度(pIC50
),而基于图神经网络(Graph Neural Network, GNN)的计算模型虽能建模分子图结构,却隐含一个关键缺陷——默认所有原子(节点)属性均受局部化学键(边)影响。事实上,氮、氧等原子类型可能独立于连接方式,这种"结构-语义特征混淆"导致现有GNN模型预测性能受限。
针对这一瓶颈,西班牙NexPandemics项目组与加泰罗尼亚政府支持的研究团队在《Pattern Recognition Letters》发表创新成果。研究者提出AE+GAE混合架构,首次实现节点属性的动态分类处理:通过并行运行自编码器(Autoencoder, AE)和图自编码器(Graph Autoencoder, GAE),配合神经网络权重分配,自动识别需结构感知的特征(如原子电荷)与语义独立的特征(如原子类型)。该模型在药物数据库测试中,较传统GNN、AE等基线方法显著降低均方误差(MSE),尤其对pIC50
预测提升显著。
关键技术包括:1)双通道特征处理框架,同步提取分子图的全局矩阵特征(AE分支)与拓扑关联特征(GAE分支);2)可学习权重网络动态融合两类特征;3)基于Graph Edit Distance的结构相似性约束。实验采用真实药物分子数据集,以SMILES转换的原子-键图作为输入,对比GCN、GIN等主流GNN架构。
模型设计亮点
研究通过理论分析指出,经典GCN本质是低通滤波器(假设相邻节点特征相似),而GIN更倾向高通滤波。AE+GAE突破性地引入特征级选择机制,避免单一滤波假设导致的偏差。例如在预测抑制HIV蛋白酶活性的任务中,模型自动弱化氮原子类型的结构依赖性,而强化碳链构象的特征关联。
实验验证
在结合亲和力预测任务中,模型对蛋白-药物复合物稳定性的预测误差较基线降低19.7%。特别值得注意的是,对IC50
的跨数据集测试显示,混合模型对结构变异分子具有更强泛化能力,证实其能有效解耦分子特征中的结构噪声与功能信号。
这项研究开创性地将特征异质性建模引入图回归领域,其技术框架可扩展至其他生物分子相互作用预测。正如讨论部分强调,该方法的价值不仅在于性能提升,更在于提供可解释的特征分析维度——研究者可通过权重分布识别关键药效团的结构敏感性,这对理性药物设计具有深远意义。未来工作可探索将该模型与Transformer等架构结合,进一步挖掘多层次分子特征。
生物通微信公众号
知名企业招聘