
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MSformer:一种基于元结构的可解释框架,用于天然产物的表示学习
《Analytical Chemistry》:MSformer: A Meta-Structure Based Interpretable Framework for Representation Learning of Natural Products
【字体: 大 中 小 】 时间:2025年11月10日 来源:Analytical Chemistry 6.7
编辑推荐:
自然产物AI模型MSformer通过分子碎片编码解决数据稀缺问题,在14项任务中表现优异并具备可解释性。

天然产物(NPs)是药物发现的宝库,然而其结构复杂性和数据极度匮乏严重阻碍了基于人工智能的探索。为了解决这一挑战,我们提出了MSformer,这是一种基于Transformer的架构,它通过利用分子片段系统地编码天然产物的化学空间来弥合这一差距。这些片段是由一种受质谱技术启发的碎片化算法生成的,称为“元结构”(meta-structures)。与在全面分子数据库上预训练的化学模型不同,MSformer完全是在非常有限的天然产物数据集上预训练的,该方法将400,000种天然产物分解为2.34亿个元结构。这种设计使MSformer能够捕捉天然产物的结构丰富性和类似药物的特性。在MoleculeNet和Therapeutics Data Commons数据集的14项任务中进行评估时,MSformer的表现优于现有的最先进模型,显示出在属性预测方面的出色泛化能力。丰富的元结构使得MSformer具有层次化的可解释性,能够揭示特定任务的结构决定因素,并成功将已批准的药物分解为生物活性片段。通过将领域知识与深度学习相结合,MSformer为基于天然产物的药物发现建立了一种变革性的范式,提供了一个可扩展的框架,用于探索自然界中尚未充分研究的化学库,并加速生物活性候选物的识别。
生物通微信公众号
知名企业招聘