
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ACS训练方案:突破分子属性预测的超低数据瓶颈
【字体: 大 中 小 】 时间:2025年07月10日 来源:Communications Chemistry 5.9
编辑推荐:
本文推荐:研究人员针对分子属性预测中数据稀缺和任务不平衡导致的负迁移(NT)问题,开发了自适应检查点专业化(ACS)训练方案。该方案通过共享图神经网络(GNN)主干和任务特异性头结构,结合动态参数保存策略,在ClinTox、SIDER等基准数据集上实现平均11.5%的性能提升,并在可持续航空燃料(SAF)属性预测中仅用29个样本即达到实用精度。这项工作为人工智能驱动的材料发现提供了高效低耗的新范式。
在材料科学和药物研发领域,分子属性预测长期受困于数据稀缺的"卡脖子"难题。传统机器学习方法需要海量标注数据,而实际场景中如新药临床毒性(ClinTox)、可持续航空燃料(SAF)等关键属性的实验测量成本高昂,样本量往往不足百例。更棘手的是,多任务学习(MTL)中常见的任务不平衡现象会引发负迁移(NT)——高数据任务在参数更新时"霸凌"低数据任务,导致模型性能不升反降。这种困境严重制约了人工智能在材料发现中的应用效能。
阿卜杜拉国王科技大学的研究团队在《Communications Chemistry》发表的研究中,提出了革命性的自适应检查点专业化(ACS)方案。该方案创新性地将边缘条件卷积层(edge-conditioned convolutional layers)构建的GNN主干与级联MLP头结合,通过动态监测各任务验证损失来选择性保存参数。在ClinTox数据集上,ACS以85.0%的ROC-AUC超越单任务学习(STL)15.3个百分点;面对仅有29个样本的SAF属性预测任务,其R2值仍保持0.82以上。这项工作首次实现了超低数据 regime(n<150)下的可靠分子属性预测,为加速新材料研发提供了关键技术支持。
关键技术方法包括:1)基于PyTorch Geometric的分子图编码,整合原子数、芳香性等58维特征;2)不确定性感知损失函数MSEUA,通过α/(α+σi)加权降低高误差样本影响;3)5折交叉验证评估框架;4)UMAP降维可视化技术分析任务相关性。
【ACS有效缓解负迁移】
通过比较STL、MTL和MTL-GLC等基线方法,研究发现ACS在ClinTox数据集上表现出最强的NT抑制能力。当任务不平衡度Ii>0.5时,其相对STL的平均增益达8.1%。这种优势源于双重机制:共享主干学习通用分子表征,而任务特异性头则保留专业化知识。如图1a所示,ACS的检查点策略使每个任务都能"冻结"最佳参数状态,避免后续训练中的性能回退。

【超低数据下的SAF属性预测】
在包含1,381种航空燃料分子的真实场景测试中,ACS展现出惊人的小样本学习能力。如图4左所示,在超低数据 regime(n<150)下,其平均性能较基线提升20.3%。特别值得注意的是,闪点(FP)与正常沸点(Tb)的预测相关性达0.974,这与QSPR研究中挥发度依赖性的理论预期高度吻合。
【任务相关性表征分析】
通过余弦相似度和UMAP降维揭示了属性间的物理关联。图5显示自燃温度(AIT)与Tb的潜在表征相似度达0.996,反映两者均受汽化特性支配;而粘度(μ)与Tb的0.991相关性则印证了分子量与极性的协同作用。这些发现为分子设计提供了可解释的物理化学依据。

这项研究通过ACS方案成功突破了分子属性预测的数据瓶颈,其核心价值体现在三方面:首先,验证了GNN主干共享与任务特异性头结合的架构优势,在保持参数效率(仅STL的6%)的同时实现知识迁移;其次,建立的动态检查点机制为处理任务不平衡提供了普适性框架;最后,在SAF等实际场景中的成功应用,将典型材料研发周期从数年缩短至数月。未来通过融合元学习初始化等策略,有望进一步拓展该方法在千级任务规模的应用边界。
生物通微信公众号
知名企业招聘