基于 BERT 的位置嵌入与零样本学习在分子性质预测中的创新突破

【字体: 时间:2025年02月10日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  为解决化学信息学中处理复杂分子关系编码及提高分子性质预测准确性的问题,研究人员开展了利用 BERT 模型探索位置嵌入(PEs)用于分子性质预测的研究。结果表明不同 PEs 各有优势,在多任务中表现良好。该研究为化学和生物信息学提供了新方法12

  在药物研发和材料科学等领域,准确预测分子的物理化学性质至关重要。以往,传统方法依赖大量实验数据和复杂模拟,既耗时又耗费资源。随着机器学习和深度学习技术兴起,利用简化分子输入线输入系统(SMILES)字符串进行分子性质预测成为新方向。其中,基于 Transformer 的语言模型,如双向编码器表征(BERT),展现出强大潜力,但位置嵌入(PEs)在该领域的应用及零样本学习方面仍有待深入探索。
为填补这些研究空白,来自韩国忠北国立大学(Chungbuk National University)和新加坡南洋理工大学(Nanyang Technological University)的研究人员开展了一项关于 “Positional embeddings and zero?shot learning using BERT for molecular?property prediction” 的研究。该研究成果发表在《Journal of Cheminformatics》上,为化学和生物信息学领域提供了重要的理论支持和实践指导3

研究人员在此次研究中运用了多种关键技术方法。首先,使用了多个公开数据库及研究中的数据集进行模型的预训练和微调,涵盖了回归和分类任务,涉及多种分子和生物学性质预测。其次,采用了不同的位置编码和 PEs 策略,如绝对、相对_key、相对_key_query 和正弦 PE 等,以探究其对 BERT 模型性能的影响。同时,通过零样本学习分析,利用 SMILES 和 DeepSMILES 两种分子表示方式,评估模型在未见数据上的泛化能力456

在实验过程中,研究人员先对 BERT 模型进行预训练。他们从多个数据源获取并预处理 SMILES 数据,去除重复实例后,用这些数据对模型进行训练。在预训练阶段,模型仅使用掩码语言建模(MLM)任务,通过掩盖 15% 的输入令牌,让模型预测这些被掩盖的令牌,以此学习分子的特征和模式7

随后进行的微调实验,则是在分类和回归任务上使用表现最佳的预训练模型。研究人员将每个微调数据集按 80%、10%、10% 的比例划分为训练集、验证集和测试集,并采用平衡类加权函数处理分类任务中的类别不平衡问题。同时,引入新的平衡数据集,评估模型在预测抗 COVID 药物、抗疟疾药物和共晶形成等特定任务上的性能8

研究结果显示,在预训练阶段,所有集成到 BERT 模型中的 PEs 都表现出高准确率,均超过 95%。其中,相对_key_query PE 的性能略高于其他 PEs,但差异较小9

在零样本学习分析中,不同 PEs 在不同任务上各有优势。例如,相对_key_query PE 在多个分类任务中表现出色,在 ClinTox 和 Tox21 数据集上,使用 SMILES 和 DeepSMILES 表示时均取得了较高的准确率和 F1 分数。在回归任务中,该 PE 也展现出良好的性能,在预测脂溶性(Lipophilicity)和 ESOL 数据集相关性质时,模型表现稳定,但在 FreeSolv 数据集上预测误差较大,这可能与数据集样本量小和预测任务本身的复杂性有关1011

正弦位置编码在分类和回归任务中也表现出有竞争力的性能。在 Tox21 数据集上,使用 SMILES 和 DeepSMILES 表示时,其准确率和 F1 分数分别达到 0.9380 和 0.9680。在零样本学习场景下,在 ClinTox 和 SIDER 数据集上,使用 DeepSMILES 表示的结果略优于 SMILES12

相对_key PE 在 Tox21 分类任务中,使用 SMILES 和零样本 DeepSMILES 表示时,均取得了较高的准确率和 F1 分数。在新提出的数据集上,使用零样本 DeepSMILES 表示在部分任务中表现更优13

绝对 PE 在分类任务中,在 Tox21 数据集上取得了较高的准确率(0.9365)和 F1 分数(0.9672)。在回归任务中,BERT 使用绝对 PE 在大多数任务上表现稍好,在部分回归任务中,使用 DeepSMILES 表示的结果优于 SMILES14

通过 K 折交叉验证和 ScaffoldSplitter 策略对模型进行评估发现,K 折交叉验证在部分新提出的数据集上显示出模型性能的提升,而 ScaffoldSplitter 策略在分类和回归任务中的预测性能较低。此外,在 Polaris 基准测试中,模型在 BBBP 数据集上的性能有所提高1516

在研究结论与讨论部分,研究人员发现,尽管最初假设 DeepSMILES 表示会因模型仅在 SMILES 上预训练而导致性能不佳,但实验结果表明,在各种分类和回归任务中,SMILES 和 DeepSMILES 表示在下游性能上的差异较小,且使用 DeepSMILES 时,大多数任务的准确率、F1 分数更高,测试损失更低。这表明 BERT 模型在不同任务中具有良好的泛化能力,先进的 PEs 能够提升预训练语言模型在化学和生物活性预测任务中的性能。

然而,该研究也存在一定的局限性。例如,使用的数据集可能无法涵盖现实应用中所有的化学结构多样性,分子表示的评估仅局限于 SMILES 和 DeepSMILES,相同的标记化算法可能并非最优,BERT 模型的计算复杂性在资源受限环境中应用存在挑战。未来研究可通过扩展分子表示和数据集范围、探索替代标记化策略、优化模型计算效率等方式,进一步提高模型的性能和适用性,为药物发现和材料科学等领域提供更强大的工具1718
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号