
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义子结构引导的离散扩散概率模型实现多目标分子生成
【字体: 大 中 小 】 时间:2025年07月28日 来源:Neurocomputing 5.5
编辑推荐:
为解决多目标约束下分子生成难题,研究人员提出SGDiff模型,通过语义子结构引导策略将目标生物活性分布与分子先验分布相连接,在无需强化学习微调的情况下实现高成功率、高多样性的分子生成,为数据稀缺条件下的药物发现提供新范式。
药物研发是一场耗时十年以上、成本高昂的马拉松,临床成功率不足10%的残酷现实催生了对人工智能技术的迫切需求。AlphaFold2在蛋白质结构预测领域的突破启示我们:深度生成模型有望通过优化靶点亲和力、类药性、毒性等多重属性,重塑药物发现流程。然而现有方法面临严峻挑战——生成对抗网络(GAN)存在模式坍塌,基于Transformer的大语言模型需要海量训练数据,而扩散模型在分子生成领域的潜力尚未充分挖掘。
湖南大学计算机科学与电子工程学院的研究团队在《Neurocomputing》发表的研究中,创新性地提出SGDiff(Substructure Guided Diffusion)模型。该研究突破性地将语义子结构信息注入离散扩散过程,在c-Jun N末端激酶-3(JNK3)和糖原合成酶激酶-3β(GSK3β)等靶点的测试中,实现了无需强化学习微调的高效多目标分子生成。
关键技术包括:1)基于蒙特卡洛树搜索的语义子结构提取技术;2)SMILES字符串的离散扩散建模;3)迭代式条件信息注入机制。研究使用1000万规模的CHEMBL数据集预训练,通过正则表达式方法构建分词器处理JNK3/GSK3β生物活性数据集。
【Denoising Diffusion Probabilistic Models】
研究系统比较了DDPM与VAE、GAN等传统生成模型的优劣,证实扩散模型能有效避免模式坍塌问题,在保持化学有效性的同时探索更广阔的化学空间。
【Methods】
创新性地将分子表示为SMILES字符串,通过语义子结构引导策略建立数据分布与目标属性分布的桥梁。关键突破在于开发了噪声子结构迭代注入技术,实现生成过程的精确调控。
【Experiment Settings】
在JNK3和GSK3β数据集上的实验表明,SGDiff的约束满足率比基线模型提升显著,同时保持89.7%的逆合成成功率。消融实验证实语义子结构引导可使分子相似度提高35%。
【Conclusions】
该研究开创性地证明:1)扩散模型可通过语义子结构引导实现多目标分子生成;2)相比Transformer,SGDiff在数据稀缺条件下表现更优;3)子结构噪声注入机制具有可解释性。这项技术为加速临床前药物发现提供了新工具,特别适用于生物活性数据有限的靶点研究。
讨论部分揭示,该方法的核心优势在于将化学直觉(语义子结构)与数据驱动建模相结合。未来可扩展至3D分子生成、蛋白质-配体相互作用预测等领域。研究团队特别指出,这种引导范式对解决小样本学习问题具有普适意义,为AI辅助药物设计开辟了新路径。
生物通微信公众号
知名企业招聘