基于结构互作组学的全蛋白质组遗传病遗传模式与分子机制预测研究

【字体: 时间:2025年06月18日 来源:iScience 4.6

编辑推荐:

  本研究通过创新的"图神经网络(GNN)+结构互作组学"方法,构建了整合蛋白质互作网络(PPI)和高分辨率蛋白结构的"图之图"模型,实现了对常染色体基因所致遗传病的遗传模式(MOI)和显性遗传病分子机制(DN/GOF/HI)的全蛋白质组预测。该研究不仅开发了优于现有工具(DOMINO/MOI-Pred)的预测模型(F1 =0.75),还揭示了AD蛋白富集于转录调控通路、AR蛋白偏好线粒体功能等关键生物学规律,为遗传病机制解析提供了系统性研究框架。

  

遗传疾病的发生发展与基因变异导致的蛋白质功能异常密切相关,而理解这些异常的遗传模式(Mode of Inheritance, MOI)和分子机制是精准医疗的基础。目前已知常染色体遗传病主要呈现两种遗传模式:显性遗传(AD)通常由单等位基因变异引起,可能通过单倍剂量不足(Haploinsufficiency, HI)、功能获得(Gain-of-Function, GOF)或显性负效应(Dominant-Negative, DN)等机制致病;隐性遗传(AR)则需要双等位基因变异,多表现为功能丧失(Loss-of-Function, LOF)。然而,现有预测工具如DOMINO和MOI-Pred存在预测范围有限、机制解释不足等问题,亟需开发能同时预测遗传模式和分子机制的系统性方法。

瑞士洛桑联邦理工学院(EPFL)的Ali Saadat和Jacques Fellay团队在《iScience》发表的研究,创新性地将图神经网络(Graph Neural Networks, GNN)与结构互作组学相结合,构建了首个能同时预测遗传模式和分子机制的计算框架。该研究整合了17,248个蛋白质的互作网络和AlphaFold预测的蛋白结构,通过"图之图"的多尺度建模方法,实现了从蛋白质互作网络到氨基酸残基级别的多层次分析。

关键技术方法包括:(1)整合STRINGdb、BioGRID等四大数据库构建包含375,494个相互作用的PPI网络;(2)基于AlphaFold结构预测和Graphein工具构建残基级蛋白结构图;(3)采用图注意力网络(GAT)和图卷积网络(GCN)分别进行MOI和分子机制预测;(4)通过MMseqs2序列聚类(20%相似度)划分训练/验证/测试集;(5)利用集成梯度法(Integrated Gradients)进行特征重要性分析;(6)采用GSEApy进行通路富集分析。

【RESULTS】
【Datasets】
研究收集了4,737个MOI标注蛋白(53%仅AR,30%仅AD,17%ADAR)和1,276个功能效应标注蛋白(DN/HI/GOF多种组合),通过严格的质量控制构建了基准数据集。

【PPI construction and annotation】
整合多源互作数据构建的PPI网络包含17,248个节点,每个节点注释78个特征,涵盖结构、功能和进化等多维信息。蛋白结构图则基于AlphaFold预测,包含73个残基级特征,捕捉肽键、氢键等相互作用。

【Model development】
采用多标签分类策略,GAT模型在MOI预测中表现最佳(F1
=0.75),显著优于DOMINO(F1
=0.685)。GCN模型在分子机制预测中领先(F1
=0.627),优于SVM方法。特征重要性分析显示,UNEECON(进化压力评分)和pLI(功能丧失不耐受概率)分别是预测AD和AR的最关键特征。

【Model interpretation】
AD蛋白最显著的特征是高UNEECON值(进化压力大),而AR蛋白具有低pLI值。功能效应预测中,DN蛋白与高RNA结合评分相关,HI蛋白拓扑结构域注释较少,GOF蛋白则富含螺旋结构。这些发现与已知生物学规律高度一致。

【Proteome-wide inference】
全蛋白质组预测显示:16,477个常染色体蛋白中,54%预测为AR,38%为AD,7%为ADAR。对7,483个AD/ADAR蛋白的功能效应预测显示,28%为DN,15%为HI,6%为GOF,其余为组合效应。通路分析证实AD蛋白显著富集于基因调控通路(OR=3.13),AR蛋白偏好线粒体功能,DN蛋白与纤维组织形成相关,HI蛋白参与转录调控,GOF蛋白涉及离子跨膜运输。

【DISCUSSION】
该研究通过创新的多尺度建模方法,首次实现了遗传病遗传模式和分子机制的系统性预测。关键发现包括:(1)AD蛋白承受更强负选择压力,与转录因子剂量敏感性相符;(2)AR蛋白多参与线粒体功能,反映能量代谢的双等位基因需求;(3)DN突变倾向发生于核酸结合界面,易破坏多聚体组装;(4)HI蛋白较少参与膜运输,与转录调控功能一致;(5)GOF突变偏好螺旋结构,与离子通道的跨膜螺旋功能相关。

研究建立的预测模型和全蛋白质组预测结果已公开共享,为遗传病基因发现和变异解读提供了重要资源。尽管存在AlphaFold预测结构对动态区域覆盖不足等局限,该方法仍代表了遗传病机制研究的重要进展,未来可通过整合组织特异性互作网络和复杂遗传模式进一步优化。这项工作不仅推进了对遗传病分子基础的理解,也为精准医疗中的基因诊断和靶向治疗开发提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号