
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PEPBI数据库:蛋白质-肽段结合预测与实验数据的整合平台及其在计算设计中的应用
【字体: 大 中 小 】 时间:2025年08月21日 来源:Scientific Data 6.9
编辑推荐:
本研究针对蛋白质-肽段相互作用缺乏高质量结构-热力学配对数据的瓶颈,开发了PEPBI数据库,整合329组基于实验结构的预测复合物及其ΔG、ΔH、ΔS热力学参数。通过Rosetta Interface Analyzer计算40种界面特性,结合严格筛选标准(肽段长度5-20残基、分辨率≤2.0?等),为机器学习模型训练提供关键数据集,推动具有特定结合特性的肽段设计研究。
在生命科学领域,蛋白质与短肽(peptide)的相互作用如同精密锁钥,调控着从细胞信号传导到免疫应答的关键过程。尽管天然肽段在药物开发(如GLP-1类似物)和诊断工具中展现出巨大潜力,但如何理性设计具有特定结合特性的合成肽段仍是重大挑战。当前瓶颈在于缺乏系统性的结构-热力学配对数据:虽然X射线晶体学能解析复合物结构,等温滴定量热法(ITC)可测量结合热力学参数,但这两类数据往往分散在不同研究中,且缺乏标准化处理。更棘手的是,肽段结合伴随显著的熵罚(entropic penalty)——这些无序分子在溶液中失去自由度会导致ΔS大幅降低,而现有计算方法对此预测能力有限。
为破解这一难题,Jazmine A. Torres、Chris A. Kieslich和Robert J. Pantazes团队在《Scientific Data》发表了PEPBI数据库。研究团队通过五步筛选流程(如图1所示),从185个初始复合物中最终锁定22组核心体系,并纳入其突变变体共181组复合物。这些数据严格满足八大标准:肽段长度5-20残基、晶体分辨率≤2.0?、蛋白序列相似性<30%、存在未结合状态蛋白结构等。尤为关键的是,所有复合物均配套ITC实测的ΔG、ΔH、ΔS数据——或通过KD(解离常数)与温度换算获得。对于实验结构中缺失的片段,团队采用Modeller补全短缺口,RoseTTAFold预测长片段,最终通过CHARMM36和Rosetta力场进行能量优化。

关键技术方法包括:1)基于PepSet数据库的六重筛选标准扩展为八重标准;2)采用Modeller和RoseTTAFold补全实验结构缺失区域;3)CHARMM36力场约束性优化与Rosetta全原子能量最小化;4)Rosetta Interface Analyzer(RIA)计算40种界面特性;5)多维度技术验证(包括与MM/PBSA方法的ΔG分布对比)。
数据记录
PEPBI数据库包含五大组件:Excel格式的热力学-结构参数表、Python3数据转换脚本、预测复合物的PDB文件、ChimeraX可视化比对文件、验证数据文档。其中核心数据表采用三级分类:结合组(如Fyn SH3-P2L)、晶体学单元(如A2B2二聚体)、单元拷贝(如C1)。突变信息通过标准化符号记录(如P2G表示第2位脯氨酸突变为甘氨酸)。
技术验证
图3左图显示,RIA计算的ΔG分布(中位数-6.2 kcal/mol)与抗体-抗原突变体数据趋势一致,但显著优于MM/PBSA方法。然而右图揭示当前计算方法的局限性——预测ΔG与实验值相关系数仅0.32,凸显开发新算法的迫切性。

结论与展望
PEPBI首次系统整合了蛋白质-肽段复合物的预测结构与实验热力学数据,其三大创新点在于:1)严格匹配的实验-计算数据对;2)涵盖熵变(ΔS)的关键参数;3)标准化的界面特性描述(如疏水接触面积dSASAhphobic、界面氢键数hbondsint)。该数据库不仅可用于改进现有结合自由能预测算法,更将为机器学习驱动的肽段设计提供黄金标准训练集。未来通过纳入更多膜蛋白-肽段体系或翻译后修饰数据,有望进一步拓展其在GPCR靶向药物开发等领域的应用价值。
生物通微信公众号
知名企业招聘