基于分数随机微分方程和分数布朗运动的蛋白质结构生成与设计新方法
《Computational and Structural Biotechnology Journal》:ProT-GFDM: A generative fractional diffusion model for protein generation
【字体:
大
中
小
】
时间:2025年10月16日
来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
为解决蛋白质结构生成中传统方法效率低、采样质量差的问题,研究人员开展了基于分数随机微分方程(ScoreSDE)和分数布朗运动(fBm)的生成模型研究,提出了马尔可夫近似分数布朗运动(MA-fBm)框架,实现了高效、高质量的蛋白质α-碳距离矩阵生成与三维结构重建,为蛋白质设计提供了新范式。
蛋白质是生命活动的核心执行者,其三维结构决定了功能特性。传统实验方法如X射线晶体学和冷冻电镜虽能解析结构,但耗时耗力且难以覆盖所有构象空间。计算预测方法如AlphaFold2取得了突破,但仍面临动态构象采样和全新设计的挑战。近年来,生成模型在图像、语音领域大放异彩,为蛋白质结构生成提供了新思路。然而,蛋白质结构数据具有高维、连续且需满足物理约束的特性,传统生成对抗网络(GAN)和变分自编码器(VAE)难以生成高质量且多样化的结构。扩散模型(Diffusion Models)通过逐步去噪的生成过程展现出强大潜力,但其标准布朗运动驱动的随机过程可能无法充分捕捉蛋白质构象变化中的长程依赖性和记忆效应。
为解决上述问题,研究人员在《Computational and Structural Biotechnology Journal》上发表了一项研究,引入分数阶随机微分方程(ScoreSDE)和分数布朗运动(fBm)来构建蛋白质结构的生成模型。该工作创新性地将fBm的长期记忆特性与ScoreSDE的精确生成能力相结合,提出了马尔可夫近似分数布朗运动(MA-fBm)框架,实现了对蛋白质α-碳距离矩阵的高效生成,并可通过优化算法重建出准确的三维结构。
研究主要采用了以下关键技术方法:1) 从蛋白质数据库(PDB)获取蛋白质结构并提取α-碳原子坐标,计算其欧氏距离矩阵作为模型的训练和生成目标;2) 构建基于分数布朗运动(fBm)的前向扩散过程,其 Hurst 指数 H 控制噪声的相关性(H>0.5为正相关,路径更平滑;H<0.5为负相关,路径更粗糙);3) 为解决fBm的非马尔可夫性,采用马尔可夫近似(MA-fBm)将其转化为可由多个奥恩斯坦-乌伦贝克(OU)过程线性组合的马尔可夫过程;4) 训练一个时间依赖的分数模型 sθ(x, t) 来估计扰动数据分布的得分函数 ?x log pt(x),训练目标为去噪分数匹配(DSM)损失函数;5) 采样时,通过求解反向时间SDE或概率流常微分方程(PF-ODE),从随机噪声中 deterministically 或 stochastically 生成样本。
分数布朗运动(fBm)是标准布朗运动的推广,其增量具有相关性,由Hurst指数H∈(0,1)控制。Type I fBm的协方差为E[WHtWHs] = (|t|2H + |s|2H - |t-s|2H)/2,Type II(Riemann-Liouville Volterra过程)则具有更复杂的协方差形式。研究采用K个OU过程对fBm进行近似,其动力学为dYkt = -γkYktdt + dBt,近似过程为 B?Ht = ∑Kk=1 ωk(Ykt - Yk0)。通过最小化L2(P)误差ε(ω)=∫T0E[(BHt-B?Ht)2]dt,求解线性系统Aω=b得到最优系数ω。
前向SDE定义为dXt = u(t)Xtdt + g(t)dB?Ht。将其与K个OU过程结合,构成一个增广的马尔可夫过程Zt ≡ (Xt, Y1t, ..., YKt),其动力学为dZt = F(t)Ztdt + G(t)dBt,其中F(t)和G(t)为特定的漂移和扩散系数矩阵。对应的反向时间SDE为dZt = {F(t)Zt - G(t)G(t)T?z log pt(Zt)}dt + G(t)dB?t,而概率流ODE(PF-ODE)则为dzt = {F(t)zt - (1/2)G(t)G(t)T?z log pt(zt)}dt。
得分函数?x log pt(xt)是模型的核心。研究采用去噪分数匹配(DSM)目标函数训练一个神经网络sθ(x, i)来估计不同噪声尺度σi下的得分。对于增广过程Zt,其得分估计通过一个增广的分数模型Sθ(Zt, t)实现,该模型将主过程Xt与辅助过程Y[K]t的得分关联起来,最终通过最小化一个加权的分数匹配损失函数来优化参数。
研究结论表明,该分数扩散模型成功生成了符合物理规律的蛋白质α-碳距离矩阵,并通过交替方向乘子法(ADMM)等优化算法重建了高质量的三维结构。其重要意义在于:1) 首次将fBm与ScoreSDE结合,解决了传统扩散模型在蛋白质生成中的局限性;2) MA-fBm框架有效处理了fBm的非马尔可夫性,使其适用于现有的得分模型训练和采样技术;3) 为生成具有长程依赖性的复杂生物大分子结构提供了全新且强大的工具,对蛋白质设计、药物发现和结构生物学研究具有深远影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号