
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习的蛋白质三维结构预测在线平台DPL3D的开发与应用
【字体: 大 中 小 】 时间:2025年05月07日 来源:Current Research in Structural Biology 2.7
编辑推荐:
为解决蛋白质三维(3D)结构预测的瓶颈问题,研究人员开发了基于深度学习算法的在线平台DPL3D。该平台整合AlphaFold 2、RoseTTAFold、RoseTTAFold All-Atom和trRosettaX-Single四种预测工具,提供210,180个分子结构的查询服务,支持突变蛋白结构预测与可视化。研究证实RoseTTAFold All-Atom预测速度最快,trRosettaX-Single适用于短序列孤儿蛋白预测,平台显著提升了结构生物学数据的临床转化效率。
蛋白质是生命活动的执行者,其三维结构的微小变化可能导致功能异常甚至疾病。尽管全球已有超过4亿条非冗余蛋白质序列,但通过实验解析的结构仅10万余个,且约75%的人类突变蛋白因缺乏晶体结构数据而无法准确预测。传统方法如同源建模(homology modeling)和蛋白质穿线法(protein threading)依赖模板相似性,而从头建模(ab initio modeling)仅适用于短肽链。近年来,AlphaFold 2和RoseTTAFold等深度学习模型通过共进化信息和神经网络架构革新了结构预测领域,但其复杂的安装流程和分散的数据资源阻碍了临床转化应用。
针对这一挑战,研究人员开发了集成化在线平台DPL3D。该平台部署于配备Intel Xeon E5-2686 v4处理器和NVIDIA Tesla P40显卡的高性能计算机,整合了AlphaFold 2、RoseTTAFold、RoseTTAFold All-Atom和trRosettaX-Single四种预测工具,并预装了2.6TB的BFD、MGnify等必需数据库。通过LiteMol可视化软件,用户可交互式查看预测的二维和三维结构,平台还提供54,332个人类蛋白质结构的快速检索服务。
2.1 计算效率评估
测试显示RoseTTAFold All-Atom对200个氨基酸以上的序列预测速度最快(p<0.05),trRosettaX-Single处理167个氨基酸的序列仅需4分钟,但对712个氨基酸的长序列需耗时9小时。AlphaFold 2与RoseTTAFold处理时间无显著差异(p=0.9303)。
2.2 结构预测准确性
在免疫球蛋白转录因子2(ITF2)的555-667氨基酸区间,AlphaFold 2、RoseTTAFold和RoseTTAFold All-Atom均准确预测出与X射线晶体学一致的α螺旋(α-helix),而trRosettaX-Single的预测存在偏差。
2.3 新基因结构解析
基于T2T基因组新发现的染色体13基因分析显示,其人类同源蛋白比黑猩猩同源蛋白缺少部分螺旋结构,揭示了物种间结构进化差异。
2.4 致病突变分析
对rs1559470315突变(NM_001904.4: c.1016_1025delinsT)的预测表明,该突变通过改变氢键网络和邻近氨基酸电离状态影响蛋白稳定性,为致病机制研究提供结构依据。
该研究证实DPL3D平台显著降低了深度学习预测工具的使用门槛,RoseTTAFold All-Atom凭借结构偏置注意力机制(structure-biased attention)实现快速精准预测,而trRosettaX-Single的监督ESM-1(s-ESM-1)模型在孤儿蛋白预测中独具优势。值得注意的是,尽管AlphaFold 3和RoseTTAFold All-Atom已能预测多类生物分子复合物,但其对抗体结合等特殊相互作用的预测仍有局限。未来通过整合冷冻电镜等实验数据持续优化模型,将进一步提升AI辅助临床诊断的可靠性。
发表于《Current Research in Structural Biology》的这项研究,为结构生物学与临床医学搭建了高效桥梁。平台不仅解决了突变蛋白结构预测的技术瓶颈,其整合的21万分子结构数据库更为生物医学研究提供了宝贵资源。随着AlphaFold-Multimer等工具的发展,下一代平台有望实现更复杂的蛋白质相互作用预测,推动精准医疗迈向新高度。
生物通微信公众号
知名企业招聘