MolEncoder:迈向最优化的分子掩码语言建模
《Digital Discovery》:MolEncoder: towards optimal masked language modeling for molecules
【字体:
大
中
小
】
时间:2025年11月04日
来源:Digital Discovery 5.6
编辑推荐:
本研究系统探讨了分子预训练中masking ratio、模型大小和预训练数据量对性能的影响,发现较高masking ratio(如30%)显著提升性能,而增大模型和数据集规模收益递减。据此提出的MolEncoder模型在多项基准任务中表现优异且计算高效。
在药物研发过程中,预测分子的性质是至关重要的环节。这一过程不仅能够帮助科学家在合成化合物之前识别潜在的不良特性,如低溶解性、高毒性或代谢不稳定性,还能显著减少失败实验的数量,降低对动物实验的依赖。近年来,随着计算技术的进步,机器学习模型在药物发现领域展现出巨大的潜力。尤其是基于Transformer架构的模型,因其在捕捉上下文关系方面的卓越能力,逐渐成为预测分子性质的重要工具。在这一背景下,许多研究借鉴了自然语言处理(NLP)领域中广泛使用的BERT模型,通过掩码语言建模(Masked Language Modeling, MLM)策略进行预训练,然后在下游任务中进行微调,以实现对分子性质的精准预测。
然而,尽管这些模型在NLP领域取得了显著成功,但将它们直接应用于分子数据时,仍然存在一些关键假设可能并不适用。例如,传统上,BERT模型使用15%的掩码比例进行预训练,这一比例在自然语言处理中被认为可以平衡模型的训练效果和计算成本。但这一比例是否适用于分子结构的表示,尤其是使用SMILES格式进行编码时,仍缺乏系统性的验证。此外,关于模型规模和预训练数据集大小对性能的影响,也存在不同的看法。虽然一些研究认为更大的模型和数据集能够带来更好的性能,但也有研究指出,这种提升并不总是显著,甚至可能在某些情况下导致性能下降。因此,如何在分子数据的预训练过程中优化这些参数,以在保持高性能的同时降低计算成本,成为一个值得深入探讨的问题。
本研究系统地分析了在分子SMILES字符串上进行掩码语言建模时,掩码比例、模型规模和预训练数据集大小对下游任务性能的影响。我们基于现代BERT架构,通过调整这些关键参数,开发了一个名为MolEncoder的模型。MolEncoder不仅在多个药物发现任务中表现优异,而且在计算资源消耗方面也具有显著优势。这一成果为分子表示学习提供了新的思路,也使得资源有限的研究者能够更高效地进行模型开发和应用。
研究结果表明,掩码比例对模型性能具有重要影响。当掩码比例超过15%时,模型在下游任务中的表现显著提升,尤其是在预测分子的溶解性、代谢稳定性、膜渗透性等关键属性时。然而,模型规模和预训练数据集的大小对性能的提升作用有限。在实验中,我们发现,使用1500万参数的模型和包含约100万分子的预训练数据集,已经能够实现接近最优的性能。而更大的模型和数据集不仅没有带来性能的显著提升,反而增加了计算成本,甚至在某些情况下导致性能下降。这说明,在分子表示学习中,模型的性能提升并不总是依赖于更大的规模或更庞大的数据集。
此外,我们还发现,预训练损失与下游任务的性能之间没有明显的相关性。这意味着,单纯依靠预训练阶段的损失值并不能准确预测模型在实际任务中的表现。因此,在模型评估过程中,直接在目标任务上进行测试和验证显得尤为重要。这一发现进一步支持了我们提出的观点:在分子预训练中,应更关注实际任务的表现,而非仅依赖预训练的损失指标。
为了验证我们的结论,我们还与现有的几种模型进行了比较,包括ChemBERTa-2和MolFormer等。结果显示,MolEncoder在多个任务中表现优于这些模型,尤其是在计算资源的使用效率方面。MolEncoder的参数量仅为1500万,而ChemBERTa-2和MolFormer的参数量分别为340万和4550万,且预训练数据集规模也远大于我们的模型。这一结果表明,即使是相对较小的模型,只要采用合适的预训练策略,也可以在实际任务中取得优异的性能。
进一步地,我们还评估了MolEncoder在多个公开基准测试中的表现。结果显示,该模型在多个任务中排名靠前,包括膜渗透性预测、肝微粒体稳定性预测等。这些结果不仅验证了MolEncoder的性能优势,还表明其在不同任务中的适应性较强,能够为后续的分子表示学习提供坚实的基础。
值得注意的是,尽管我们发现较高的掩码比例对模型性能有积极影响,但这一策略并不适用于所有情况。例如,在某些情况下,掩码比例过高可能会导致模型对分子结构的感知能力下降,从而影响其在下游任务中的表现。因此,如何在不同的任务和数据集中选择合适的掩码比例,是一个需要进一步研究的问题。
本研究还探讨了预训练数据集规模对模型性能的影响。我们发现,当数据集规模超过一定阈值后,性能提升变得不明显,甚至出现下降。这表明,在分子预训练中,数据集的大小并不是决定模型性能的唯一因素。事实上,当使用半量的ChEMBL数据集进行预训练时,模型的性能与使用完整数据集时相比没有显著差异。这一发现对于资源有限的研究者具有重要意义,因为它意味着,即使在数据量有限的情况下,也可以训练出性能优异的模型。
此外,我们还对模型的训练过程进行了优化,采用混合精度计算和编译技术,以提高训练和推理的效率。这些技术的应用使得MolEncoder能够在相对较低的计算成本下实现高性能,从而降低了药物发现过程中模型开发的门槛。
总的来说,本研究通过系统分析,揭示了在分子表示学习中,某些关键设计选择与自然语言处理存在显著差异。我们发现,较高的掩码比例可以显著提升模型性能,而模型规模和预训练数据集的扩大则未必带来性能的持续提升。这些结果不仅为药物发现领域的模型开发提供了新的指导,还展示了如何在有限的计算资源下构建高效且准确的分子表示模型。MolEncoder的推出,为研究人员提供了一个新的工具,使得他们能够在不依赖大规模数据集和复杂模型结构的情况下,实现对分子性质的准确预测。这一成果有望推动分子表示学习的发展,使其更加普及和实用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号