
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于注意力增强的多尺度拓扑图池化策略AETP在分子图分类中的创新研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Computational Biology and Chemistry 2.6
编辑推荐:
为解决现有图神经网络(GNN)在分子图分类中难以捕捉多尺度拓扑特征的瓶颈,研究人员提出注意力增强的多尺度拓扑图池化模型AETP。该模型整合GAT(图注意力网络)和GIN(图同构网络)架构,结合地标-见证复形技术,在FDA_DILIst等分子数据集上实现超越GCN/GATv2/TopoPool等基线模型的性能突破,为复杂分子结构表征提供新范式。
在人工智能与化学交叉领域,分子图分类一直是药物发现和毒性预测的核心挑战。传统图神经网络(GNN)如GCN、GraphSAGE等虽能处理图结构数据,却像"近视的观察者"——仅能捕捉局部邻域特征,对分子中关键的全局拓扑结构(如环状构象、官能团空间排布)视而不见。更棘手的是,现有拓扑池化方法如TopoPool虽引入持久同源(Persistent Homology)分析,但仍受限于传统邻域聚合机制,导致分子指纹表征存在"拓扑信息流失"现象。这种缺陷在FDA_DILIst(药物肝毒性数据集)等复杂分子分类任务中尤为明显,严重制约了AI辅助药物设计的精度。
针对这一瓶颈,来自HUTECH大学的研究团队在《Computational Biology and Chemistry》发表创新研究,提出注意力增强的多尺度拓扑图池化模型AETP。该模型通过三重革新实现突破:首创GAT-GIN双引擎架构,将局部注意力机制与全局同构测试相结合;开发?-距离邻域子图构建算法,实现拓扑敏感的特征保留;引入地标-见证复形(Landmark-Witness Complex)技术捕捉分子空间拓扑。实验证明,AETP在T3DB_Toxin_2(毒素数据库)等4个分子数据集上平均准确率提升12.7%,尤其对Eye_Irritation(眼刺激性)分类的F1-score达0.914,显著优于GATv2、TopoPool等11种基线模型。
关键技术方法包括:1) 基于多头注意力(GAT)的局部拓扑评分;2) 结合Weisfeiler-Lehman(WL)同构测试的GIN全局表征;3) ?-距离邻域子图构建;4) 地标点持续同源特征提取;5) 多层感知机(MLP)分类器融合多尺度特征。实验采用FDA_DILIst等真实世界分子数据集,涵盖1,824个化合物样本。
【Graph neural network & graph pooling operation】
研究指出传统GNN的"消息传递-聚合"范式存在拓扑盲区。对比实验显示,仅用GCN聚合的分子图在T3DB_Toxin_2数据集上错分率达38.2%,主要误判具有相似原子组成但拓扑异构的分子对。
【Our proposed AETP model】
模型架构创新体现在三阶段处理:首先通过GAT的8头注意力机制计算节点重要性分数,捕获如苯环邻位取代基等局部特征;其次采用GIN的5层WL测试层生成全局拓扑嵌入,成功区分98.3%的非同构分子;最后融合两类特征构建?-距离子图,在Eye_Corrosion数据集上使关键官能团识别率提升21.4%。
【Empirical studies & discussions】
跨数据集测试表明,AETP的拓扑敏感性带来显著优势:在FDA_DILIst中AUROC达0.932,比TopoPool提高0.148;对含杂环化合物的分类准确率突破90%阈值,验证了多尺度表征的有效性。消融实验证实GIN组件对全局拓扑捕获贡献率达67.8%。
【Conclusions】
该研究开创性地将拓扑几何理论与注意力机制相结合,突破传统GNN的尺度局限。AETP不仅为分子属性预测提供新工具,其?-距离子图构建策略更可拓展至蛋白质相互作用网络分析。未来工作将探索三维分子构象的拓扑嵌入,进一步推动AI驱动的精准药物设计。
研究同时指出当前局限:对超大规模分子图(>5,000节点)的计算效率待优化,且地标点选取策略仍需人工干预。这些发现为下一代拓扑感知GNN指明发展方向。
生物通微信公众号
知名企业招聘