基于AlphaFold结构与序列特征的图神经网络统一框架在蛋白质功能预测中的突破性应用

【字体: 时间:2025年08月08日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  这篇研究开创性地提出StructSeq2GO模型,通过融合AlphaFold预测的蛋白质三维结构(图表示学习)与ProteinBERT序列嵌入特征,实现了基因本体论(GO)功能预测的跨域性能突破。模型在BPO/CCO/MFO三个GO域中Fmax分别达0.485/0.681/0.663,AUPR最高达0.763,证实结构信息能显著补充序列分析的局限性,为计算生物学提供新范式。

  

Highlight

本研究开发的StructSeq2GO模型通过整合AlphaFold2预测的蛋白质空间结构与ProteinBERT序列语义特征,在基因本体论(GO)注释任务中实现全面性能突破。实验证明结构信息能有效捕捉序列分析遗漏的空间生化特征,为功能预测提供新维度。

数据收集

我们从EMBL-EBI AlphaFold蛋白质结构数据库获取23,391个人类蛋白质预测结构,并匹配超过56万条实验验证的GO注释。为确保数据质量,仅保留含IDA/IPI/EXP等严格证据代码的条目。

蛋白质接触图方法比较

我们评估了三种接触图生成方法:Cα-Cα(CA-CA)、NBR和任意原子接触(ANY-ANY)。在统一10?阈值下,CA-CA方法表现最优,这与DeepFRI的研究结论一致——尽管ANY-ANY在6.5?阈值下有效,但CA-CA在更大距离范围内更具鲁棒性。

讨论

StructSeq2GO创新性地将AlphaFold2预测的高精度结构与ProteinBERT序列特征通过图池化技术融合。结构置信度分析显示,pLDDT>90的高质量区域对功能关键位点的识别贡献率达72%,显著优于纯序列方法(p<0.01)。

结论

该框架不仅在三类GO注释任务中刷新性能记录(BPO的AUPR提升11.2%),其模块化设计更支持扩展到通路注释和疾病关联分析,为精准医疗提供新工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号