VNFlow:变分自编码器与标准化流的融合创新——面向高效药物分子设计的生成式人工智能框架
《Journal of Cheminformatics》:VNFlow: integration of variational autoencoders and normalizing flows for novel molecular design
【字体:
大
中
小
】
时间:2025年10月26日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对生成式人工智能在药物发现中难以平衡多目标优化与采样效率的挑战,开发了VNFlow模型。该工作首次将变分自编码器(VAE)与标准化流(Normalizing Flows)结合,通过SMILES、SELFIES和group-SELFIES分子表征,实现了对类药性(QED)、合成可行性(SA)及磷原子电荷等属性的协同优化。实验表明,该方法在ChEMBL数据库外生成的新型有机氟磷酸酯分子性能超越现有数据库记录,为靶向疗法开发提供了新范式。
在药物研发领域,探索浩瀚且未被充分开发的化学空间始终是一项艰巨的挑战。传统的分子发现方法如同大海捞针,不仅耗时长达数十年,成本也高达数十亿美元。尽管人工智能(AI)技术为这一领域带来了革命性的希望,但现有的生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),在平衡多目标优化(如同时提升类药性和合成可行性)与生成效率方面仍力有不逮。特别是在处理复杂分子骨架(如芳香环)和特定化合物类别时,模型性能往往不尽如人意。2024年诺贝尔化学奖和物理学奖分别授予蛋白质结构预测和人工神经网络训练的突破性工作,凸显了AI在科学领域的巨大潜力,但如何将其有效应用于分子设计,尤其是实现快速、定向的分子生成,仍是悬而未决的难题。
在此背景下,Jiri Hostas等人在《Journal of Cheminformatics》上发表了题为“VNFlow: integration of variational autoencoders and normalizing flows for novel molecular design”的研究论文。该研究开发了一种名为VNFlow的新型生成模型,巧妙地将变分自编码器(VAE)的数据降维和特征提取能力,与标准化流(Normalizing Flows)精确的概率密度估计和高效采样特性相结合。研究团队旨在解决当前分子生成模型在优化复杂目标(如定量评估类药性QED、合成可及性SA评分)与保持高速采样之间的平衡问题,特别是在数据稀缺的特定化合物类别(如有机氟磷酸酯)生成场景下。
为开展研究,作者团队运用了几项关键技术方法。首先,在分子表征方面,研究比较了SMILES(Simplified Molecular Input Line Entry System)、SELFIES(Self-Referencing Embedded Strings)和group-SELFIES等字符串表示法,利用RDKit工具包进行分子指标(QED、SA评分、重原子数等)计算。其次,核心模型构建包括:1)训练VAE模型(包含卷积神经网络编码器和门控循环单元GRU解码器)对分子进行降维,得到潜在空间向量;2)在潜在空间或直接对分子表征上,训练多种标准化流模型(如Real NVP、掩码自回归流、自回归有理二次样条流),学习目标分子分布;对于有机氟磷酸酯分子,还采用密度泛函理论(DFT)B3LYP-D4/def-TZVP方法计算Hirshfeld电荷以评估反应性。模型训练采用PyTorch等框架,在有限数据下采用迭代生成策略优化训练集。
正常化流与变分自编码器结合用于新型生物活性分子设计
研究人员首先在ChEMBL22数据库的5万个分子上训练VAE模型,然后使用标准化流在潜在空间中针对QED评分最高的1%分子分布进行采样。结果显示,与VAE随机采样相比,结合Real NVP标准化流后,生成分子的平均QED评分提升超过一倍,SA评分改善约40%,且能产生大量新颖分子。例如,Real NVP模型生成的分子中,QED评分超过ChEMBL35数据库(含240万分子)最高记录的分子有4个,证明了其在探索化学空间“盲区”的有效性。
通过扩大生成规模(如生成83.7万个样本),VNFlow框架展现了持续的探索能力,其生成的高QED评分分子分布与训练集相比有显著扩展,且分子结构多样性保持良好。这表明该框架不仅能模仿训练数据,更能生成具有更优性能的新分子实体。
针对缺乏训练数据的有机氟磷酸酯类分子,研究直接利用SELFIES和group-SELFIES的鲁棒性,结合条件Real NVP流进行迭代生成。在仅175个初始分子的基础上,经过三轮迭代,成功生成了1224个有效且独特的分子支架,并对其中673个分子完成了DFT几何优化和电荷计算。生成的分子在磷原子Hirshfeld电荷分布上展现出更广的多样性,并成功引入了芳香环片段(通过group-SELFIES实现),提升了分子的复杂性和类药性。
与标准SELFIES相比,group-SELFIES通过预定义分子片段(如从ZINC250k数据库中提取的10个芳香环片段)压缩了序列长度,促进了更复杂分子(如含芳香环结构)的生成。虽然其生成的有效唯一分子数量较少,但产生的分子具有更高的最大QED评分(0.83 vs 0.76),并且在迭代过程中性能持续提升,显示了其在低数据区域生成复杂支架的潜力。
综上所述,VNFlow研究首次成功将VAE与标准化流整合到一个完整的分子设计工作流中,并首次将条件标准化流应用于基于字符串的分子表征。该框架显著提升了生成分子的质量(如QED、SA评分)和多样性,尤其在数据稀缺的场景下展现出强大适应性。研究表明,标准化流能够以整体方式捕捉化学结构,为优化复杂分子目标、开发靶向疗法开辟了新途径。未来,改进分子表征、增强模型表达能力以及将该框架应用于更广阔的材料设计等领域,将是重要的研究方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号