
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于从头合成小分子的“光谱到结构”扩散模型
《Analytical Chemistry》:A Spectrum-to-Structure Diffusion Model for De Novo Small Molecule Generation
【字体: 大 中 小 】 时间:2025年11月25日 来源:Analytical Chemistry 6.7
编辑推荐:
解析未知小分子结构在代谢组学等领域面临挑战,DiffNovo框架通过BART模型编码SMILES、光谱编码器提取质谱特征,结合条件扩散模型实现分子结构重构,在NIST20数据集上显著优于现有方法,代码已开源。

从质谱图中解析未知小分子的结构是代谢组学、蛋白质组学和药物发现等领域中一项基础性但极具挑战性的任务。尽管质谱技术提供了对结构鉴定至关重要的碎片化信息,但如何准确解读这些质谱图以重建分子结构仍然是一个复杂的问题。为了解决这一问题,我们提出了DiffNovo,这是一个基于质谱到结构的扩散模型,旨在提升小分子的识别能力。DiffNovo整合了基于BART的SMILES编码器-解码器、高分辨率质谱编码器以及条件扩散模型。基于BART的组件能够捕捉SMILES符号之间的复杂依赖关系,而质谱编码器则有效利用了细粒度的质谱特征。条件扩散模型包括一个逐步添加高斯噪声的前向过程和一个在质谱碎片化信息指导下重建分子结构的反向去噪过程。这种条件机制确保了生成的分子与原始质谱数据保持一致。在NIST20数据集上的实验结果表明,DiffNovo在多个评估指标(包括SMILES级别的准确性、基于指纹的相似性以及理化性质的一致性)上均优于现有方法。代码可在https://github.com/GaoHoufu/DiffNovo获取。
生物通微信公众号
知名企业招聘