
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于端到端注意力机制的图学习新方法:边缘集注意力网络在分子与社交网络中的突破性应用
【字体: 大 中 小 】 时间:2025年06月06日 来源:Nature Communications 14.7
编辑推荐:
为解决图神经网络(GNN)在消息传递框架中存在的过平滑、过挤压等问题,以及现有图Transformer模型计算复杂度高、预处理步骤繁琐的局限,研究人员提出了一种基于边缘集注意力(ESA)的全新图学习方法。该方法通过垂直交错掩码与自注意力模块,在70余项节点和图级任务中超越传统GNN和复杂Transformer模型,尤其在分子对接、量子力学和异质性节点分类等挑战性任务中表现突出。这项发表于《Nature Communications》的研究为图结构学习提供了更高效、更通用的解决方案,在药物发现和材料设计等领域具有重要应用价值。
在人工智能与生命科学交叉领域,图神经网络(GNN)长期以来被视为处理图结构数据的标准工具。然而,这种基于消息传递(message passing)的框架存在固有缺陷:随着网络深度增加,节点表征会趋向同质化(过平滑over-smoothing);同时,信息在通过瓶颈边时被过度压缩(过挤压over-squashing)。这些问题严重制约了GNN在需要长程依赖建模的任务中的表现,如分子性质预测和社会网络分析。另一方面,受自然语言处理成功的启发,研究者尝试将Transformer架构应用于图数据,但这些方法往往需要复杂的预处理步骤(如计算最短路径、拉普拉斯特征向量等),且在实际基准测试中表现常不及精心调校的GNN。这种现状呼唤一种既能保留注意力机制优势,又无需复杂辅助机制的图学习方法。
针对这一挑战,来自AstraZeneca等机构的研究团队提出了一种革命性的边缘集注意力(Edge-Set Attention, ESA)架构。该方法将图视为边缘的集合,通过创新的掩码自注意力机制,在70多个分子、视觉和社会网络基准测试中全面超越现有方法,相关成果发表在《Nature Communications》上。研究采用的核心技术包括:(1)边缘邻接矩阵的高效掩码算法;(2)垂直交错的掩码自注意力模块(MAB)与标准自注意力模块(SAB);(3)基于多头注意力的池化机制(PMA);(4)3D原子系统的距离编码方法;(5)跨不同精度数据集的转移学习策略。实验数据来源于公开的QM9、DOCKSTRING、PCQM4MV2等分子数据集,以及MNIST、MalNetTiny等视觉图数据集。
ESA架构的核心突破在于将传统以节点为中心的学习范式转变为边缘导向。通过将每条边表示为源节点、目标节点和边特征的拼接,模型直接在边缘空间建立注意力交互。掩码机制确保只有共享节点的边缘才能相互关注,这种设计既保留了图结构的拓扑信息,又避免了传统Transformer的全连接计算开销。特别值得注意的是,边缘邻接矩阵的计算被优化为纯张量操作,无需存储稀疏矩阵,这在处理包含数百万边的大规模图时显著提升了效率。
在量子化学基准QM9的19项任务中,ESA在15项上取得最优成绩,仅在HOMO(最高占据分子轨道)和LUMO(最低未占分子轨道)能隙等前沿轨道性质上略逊于主邻域聚合(PNA)方法。更令人印象深刻的是,在包含334万训练分子的PCQM4MV2数据集上,ESA将HOMO-LUMO能隙预测的MAE降至0.0235,比之前最优结果提升近3倍。分子对接基准DOCKSTRING的5个靶点测试中,ESA在4个靶点上领先,包括难度较高的核受体ESR2和PGR。
研究团队特别选取了平均最短路径长达20.89的PEPTIDES-STRUCT和PEPTIDES-FUNC肽数据集验证ESA的长程建模能力。结果显示ESA仅用一半层数就超越了专门优化的GNN和GraphGPS模型。在3D原子系统建模方面,ESA在Open Catalyst Project子集上的MAE达到0.799,优于专为催化剂设计的Graphormer模型(0.839)。这种跨领域的稳健性证实了ESA作为通用图学习框架的潜力。
通过分析不同量子性质预测任务中的注意力分数基尼系数,研究发现HOMO能量预测的注意力分布逐渐集中(最终层基尼系数0.7),而内能u0
预测则趋向均匀分布(基尼系数0.2)。这种差异与物理直觉完美吻合——前沿轨道通常局域于特定原子区域,而内能是整个分子的全局性质。可视化分析进一步证实,模型自动学习到的关键化学键确实对应着实验测得的分子轨道位置。
这项研究的意义不仅在于提出了性能优越的新架构,更重要的是为图学习领域提供了简约而强大的新范式。ESA的成功证明,通过精心设计的注意力机制完全可能超越传统消息传递框架,而无需依赖复杂的预处理或领域特定技巧。在药物发现领域,ESA在转移学习中的优异表现(将GW精度数据的预测误差降低40%)尤为宝贵,这为高成本量子化学计算提供了可行的替代方案。未来工作可进一步探索ESA在更大规模图数据上的应用,以及与其他模态(如几何信息)的融合。该研究也为注意力机制在图数据上的理论分析开辟了新方向,如边缘视角对图同构判别能力的影响等。
生物通微信公众号
知名企业招聘