
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于变体注意力机制的高效关系推理模型RIVA及其在动态系统交互结构推断中的应用
【字体: 大 中 小 】 时间:2025年06月22日 来源:Neural Networks 6.0
编辑推荐:
针对动态系统中隐式交互结构推断的难题,研究人员提出RIVA模型,创新性地采用变体注意力(variate attention)机制替代传统Transformer的上下文注意力,通过图扩散传播有效整合直接/间接交互特征。该研究解决了GNNs全连接假设导致的冗余消息传递问题,在物理仿真和CMU运动数据集上验证了其在时间不变连续交互推断和状态预测中的优越性,为复杂系统建模提供了新范式。
在物理、神经科学和社会学等领域,动态系统的交互结构推断始终是理解复杂系统行为的关键。传统方法如基于统计指标的模型虽简单高效,却难以捕捉非线性动态;而图神经网络(GNNs)虽能建模交互,但全连接假设会导致冗余计算和误差累积。更棘手的是,Transformer模型虽擅长长程依赖捕捉,但其将同一时间步的多变量编码为单一token的机制,会破坏变量间的物理关联性——这正是当前交互系统建模面临的核心瓶颈。
针对这一挑战,四川大学等机构的研究人员在《Neural Networks》发表的研究中,提出了RIVA(Relational Inference with Variate Attention)模型。该工作通过三大创新突破现有局限:首先,用变体注意力机制替代传统Transformer的上下文注意力,将整个动态序列而非单时间步数据作为编码单元;其次,引入图结构掩码的因果注意力机制,使变量能精准聚合邻居特征;最后通过图扩散传播整合直接/间接交互。实验证明,RIVA在物理仿真和CMU运动数据集中,不仅交互结构推断准确率提升显著,在长时程状态预测任务中误差累积率更是降低40%以上。
关键技术方法
研究采用3层Graph Transformer架构(L=3),通过分离变量编码保留多变量物理意义;利用注意力系数与交互图的相关性构建动态掩码;采用基于扩散的邻域特征聚合策略整合高阶交互。所有实验在Intel i5-13600KF和NVIDIA RTX 3090 Ti平台完成,使用PyTorch 1.13.0实现。
研究结果
Relational inference with variate attention
通过将N个变量的T时间步序列X=(x1:T1,...,x1:TN)整体编码,RIVA的变体注意力机制成功解耦了传统Transformer中混淆的变量物理含义。关键突破在于发现注意力系数矩阵与隐式交互图G存在显式映射关系,由此构建的动态掩码使模型能自主识别显著交互边。
Experiments and result analysis
在弹簧粒子系统和CMU运动数据测试中,RIVA的交互结构推断F1分数达0.92,较基准模型提升27%。特别在30步以上长时预测中,均方误差(MSE)保持线性增长而非指数爆发,证明其能有效抑制误差传播。消融实验显示,移除变体注意力会使预测性能下降34%,验证了该机制的核心作用。
结论与意义
该研究开创性地将变体注意力机制引入关系推理领域,其价值体现在三方面:技术上,突破传统GNNs的全连接假设和Transformer的token混合局限;理论上,首次建立注意力系数与交互图的显式关联;应用上,为疾病传播预测、药物推荐等需推断隐式交互的任务提供新工具。研究获国家科技创新2030重大项目(2022ZD0211400)等资助,相关代码已开源。
生物通微信公众号
知名企业招聘