
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于几何完备潜在扩散模型的三维分子生成方法研究:提升药物发现效率的新策略
【字体: 大 中 小 】 时间:2025年08月01日 来源:Bioinformatics 5.4
编辑推荐:
针对现有扩散模型在三维分子生成中难以准确拟合多模态特征分布的问题,青岛大学研究团队提出几何完备潜在扩散模型(GCLDM)。该研究通过SE(3)等变几何完备自编码器实现原子空间与潜在空间的映射,结合潜在空间扩散框架显著提升分子稳定性(90.3%)和有效性(95.2%),为药物设计提供了更精准的生成工具。
在药物发现领域,探索理论上可达1060规模的化学空间始终是重大挑战。传统方法依赖实验筛选和专家经验,而深度生成模型虽在二维分子生成取得进展,但三维结构建模仍面临两大瓶颈:多模态特征(原子坐标、类型、电荷等)的分布拟合困难,以及三维几何信息利用不足。现有E(3)等变模型对镜像变换不敏感,导致手性分子建模偏差;而统一高斯扩散框架难以处理离散-连续混合特征,制约了生成质量。
青岛大学计算机科学与技术学院的研究团队在《Bioinformatics》发表研究,提出几何完备潜在扩散模型(GCLDM)。该模型创新性地融合SE(3)等变几何完备自编码器与潜在扩散框架:通过几何完备感知卷积(GCPConv)实现原子空间到连续潜在空间的映射,利用局部参考系(aij,bij,cij)嵌入几何信息;在潜在空间采用DDPM(Denoising Diffusion Probabilistic Models)建模,最终生成包含坐标x∈?N×3和特征h∈?N×nf的完整分子。关键技术包括几何完备消息传递(公式1-4)、SE(3)等变坐标更新(公式5-6)以及条件生成时的属性拼接策略(公式21-22)。
方法
研究采用QM9(13万个小分子)和ChEMBL(1.2万药物样分子)数据集,评估指标涵盖原子稳定性、分子稳定性和RDKit验证有效性。GCPConv通过局部帧Fij实现旋转平移等变性(公式8),自编码器采用三层卷积结构减少信息损失(公式10),扩散过程通过噪声预测网络μθ实现逐步去噪(公式19)。
结果
无条件生成:在QM9上,GCLDM以90.3%分子稳定性和93.5%唯一有效性超越基线模型。对比GeoLDM,其分子稳定性提升1%,验证几何完备消息传递的优势(表1)。对12重原子药物分子,稳定性达46.4%(表2)。

条件生成:以极化率α为条件时,MAE误差仅1.92 Bohr3,较EDM降低30%(表3)。属性分布拟合显示(图2),GCLDM精准复现训练集极化率(1.5-2.5 Bohr3)和偶极矩(0-2.5 D)的统计特征。

可视化:图3展示无条件生成的多样分子,图4呈现特定极化率(1.8 Bohr3)下的定向生成结果。去噪过程(图5)显示原子从中心扩散至稳定构型的动态演变。

结论
该研究通过几何完备潜在扩散框架,首次实现三维分子生成中SE(3)等变约束与多模态特征建模的统一。实验证明:1)GCPConv比传统EGNN提升手性识别能力;2)潜在空间扩散使有效性突破95%;3)条件生成MAE误差接近理论下限。这项工作为靶向药物设计提供了高精度生成工具,代码已开源(Zenodo 15773195)。未来可拓展至蛋白质-配体复合物生成等场景。
生物通微信公众号
知名企业招聘