
-
生物通官微
陪你抓住生命科技
跳动的脉搏
神经SHAKE算法:神经微分方程中的几何约束在分子构象生成中的应用
【字体: 大 中 小 】 时间:2025年08月06日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对分子构象生成中高维空间采样难题,创新性地提出Neural SHAKE算法,将经典分子动力学中的SHAKE约束投影技术融入神经微分方程框架。研究人员通过构建严格流形投影的分数扩散模型,在反向SDE(Stochastic Differential Equation)步骤中采用拉格朗日乘子求解实现正交投影,解决了传统概率引导方法仅能施加软约束的局限。该研究在DrugBank分子数据集上验证了算法有效性,相比Guidance方法将约束误差降低100倍,显著提升了低能量构象的生成效率。这项工作为Boltzmann分布采样和药物发现提供了新工具,相关成果发表于《Journal of Cheminformatics》。
在计算化学和药物发现领域,准确生成分子三维构象始终是核心挑战。随着系统原子数量增加,可能的原子排列空间呈指数级膨胀,传统采样方法如同陷入"维度灾难"的迷宫。更棘手的是,物理上合理的分子构象必须满足复杂的几何约束条件——键长、键角、二面角等参数就像无形的"分子尺规",将浩瀚的构象空间压缩到有限的可信区域。然而现有生成模型大多采用概率引导等软约束方法,如同用橡皮筋固定分子结构,难以确保构象的严格物理有效性。
针对这一瓶颈,University of Basel的研究团队在《Journal of Cheminformatics》发表突破性研究,将经典分子动力学中的SHAKE约束算法与神经微分方程相结合,开创了Neural SHAKE新范式。这项研究巧妙地在扩散模型的随机生成动态中嵌入几何约束,通过拉格朗日乘子求解实现严格流形投影,使每个逆向扩散步骤都精确满足约束条件。就像为分子构象生成安装了"导航系统",该方法不仅能高效探索低能量子空间,还保持了全局SE(3)对称性,为药物设计和材料发现提供了新工具。
研究人员主要采用三项关键技术:1) 构建约束满足的随机微分-代数方程(SDAE),通过时间依赖的sigmoid调度实现约束强度渐变;2) 开发模块化SHAKE投影算法,在预训练GeoDiff模型上实现零样本约束执行;3) 基于DrugBank分子集进行聚类分析和PCA降维,自动提取关键距离约束特征。这些技术组合确保了方法既保持理论严谨性,又具备实际应用灵活性。
【METHODOLOGY】
研究团队建立了严格的数学框架,证明当约束雅可比矩阵DxΣ(x,t)满秩时,投影操作在局部保持良好定义性。通过定理1(局部秩保持定理)确保在约束流形邻域内不会出现突然的秩亏损,为算法稳定性奠定基础。实验显示,该方法在80个DrugBank分子测试集上,约束满足精度比Guidance方法提升两个数量级。
【Neural SHAKE and guidance algorithm】
算法创新性地将距离约束σdij=(dij-dij,0)2=0转化为严格代数条件,通过迭代求解方程(17)中的拉格朗日乘子λβ,实现原子位置的协同调整。如图8所示,Neural SHAKE的约束违反率控制在0.003?以内,而Guidance方法则出现显著偏差。这种精确性源自整体优化策略,与Guidance的独立增量更新形成鲜明对比。
【Performance analysis】
在丁烷分子案例中(图12),约束引导成功将C1-C4距离收敛至3.9?,对应稳定的交错构象。能量分析显示(图13),Neural SHAKE生成构象的能量分布与无条件生成相当,而Guidance方法则产生100 kcal/mol以上的非物理构象。更引人注目的是图15的扰动分析——Neural SHAKE的校正量级仅为Guidance的1/10,证明其能更温和地引导扩散过程。
【Computational costs comparison】
虽然Neural SHAKE因需求解Nc3复杂度的乘子系统而增加计算负担,但研究指出,对于典型药物分子(Nc≤50),这种代价可接受。模块化设计允许直接套用预训练模型,避免了重新训练的开销,在实际应用中展现出独特优势。
这项研究的理论贡献和实践价值同样突出。在测度论层面,研究阐明了约束密度pconstrained(x,t)如何通过Dirac δ函数和Gram行列式因子(公式29)实现流形上的概率归一化,扩展了Fixman修正因子的时变约束版本。在实际应用方面,该方法为基于结构的药物设计提供了新范式——通过约束特定药效团几何特征,可定向生成结合口袋互补的构象。正如研究者Justin S. Diamond和Markus A. Lill强调的,这种"硬约束"方法特别适用于需要严格立体控制的场景,如天然产物全合成或蛋白质-配体对接研究。
研究的创新性还体现在约束生成策略上。如图3-5所示,通过RDKit构象集的PCA分析和k-means聚类,自动识别关键原子对距离作为约束条件。这种数据驱动方法避免了人工指定约束的盲目性,使系统能自主捕捉分子柔性中的关键自由度。未来,结合KL散度约束(公式41)的分布级控制,或将进一步拓展该方法在构象系综生成中的应用前景。
生物通微信公众号
知名企业招聘