PROSITE数据库2025更新:从SARS-CoV-2研究到转录因子家族关联发现的新突破

《Nucleic Acids Research》:The PROSITE database for protein families, domains, and sites

【字体: 时间:2025年11月21日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本刊推荐研究人员针对蛋白质功能注释中远缘同源检测灵敏度不足、结构域边界界定不准确等问题,开展了PROSITE数据库的全面升级研究。通过开发新型广义谱模型、整合AlphaFold预测结构优化域边界、引入ChEBI与Rhea标准词汇等创新手段,成功构建了覆盖SARS-CoV-2病毒蛋白结构域的高精度注释系统,并首次揭示POU2F与NF-κB转录因子家族通过OCA结构域的新型关联机制。该研究显著提升了蛋白质功能预测的可靠性,为疾病机制研究和药物靶点发现提供了关键技术支持。

  
在蛋白质组学飞速发展的时代,科学家们面临着如何从海量序列数据中精准识别功能元件的重大挑战。自1989年问世以来,PROSITE数据库始终致力于解决蛋白质家族、结构域和功能位点的系统化注释问题。随着UniProtKB知识库中序列数量的指数级增长(截至2025年6月已超过2.5亿条),以及AlphaFold预测结构数据库的爆发式扩展(覆盖2.14亿个模型),传统基于短序列模式的识别方法已难以满足精准注释的需求。特别是在全球抗击COVID-19疫情期间,科研人员亟需快速解析SARS-CoV-2病毒蛋白的功能结构域,这为蛋白质注释工具提出了更高灵敏度和准确性的要求。
本研究团队通过系统性升级PROSITE数据库的核心架构,创新性地将人工智能预测结构与化学本体论整合到注释流程中。研究重点包括开发新一代广义谱模型以提升远缘同源检测能力,利用AlphaFold预测结构精确定义结构域边界,并建立与ChEBI化学本体和Rhea生化反应词典的标准化关联。这些突破使得PROSITE能够更精准地注释UniProtKB/Swiss-Prot条目中的功能特征,特别是在SARS-CoV-2病毒蛋白分析中发挥了关键作用。
关键技术方法主要包括:1)基于多序列比对的广义谱模型构建技术,用于检测远缘同源关系;2)AlphaFold预测结构辅助的域边界界定方法,提升模型精度;3)ScanProsite多线程扫描算法优化,实现高效大规模序列分析;4)ChEBI本体与Rhea反应词典的集成应用,标准化化学配体与反应注释;5)实验验证队列来自UniProtKB/Swiss-Prot手动注释数据集和PDB实验结构数据库。
模式识别技术的持续价值
尽管正则表达式模式被视为传统技术,PROSITE证明其在短功能位点检测中仍不可替代。研究显示,经典的RGD细胞附着序列模式(PS000016)成功识别出SARS-CoV-2刺突蛋白中未被注意的整合素结合位点。该位点位于血管紧张素转换酶2(ACE2)结合区域附近,后续实验证实其确实具备整合素结合能力。
广义谱模型的新发现
通过构建敏感度更高的广义谱模型,研究团队意外揭示了转录因子家族间的进化联系。针对POU2AF共激活蛋白OCA结构域开发的谱模型,不仅在预期家族成员中检测到该 motif,还在NF-κB抑制剂IκB蛋白中发现高度匹配。结构比对显示,IκB中的推定OCA结构域与已解析的POU2AF1结构(PDB:1CQT)具有相似的N端延伸链与C端α螺旋架构。
多序列比对进一步证实关键功能残基的保守性,仅第20位正电荷残基被异亮氨酸替代,可能通过增加疏水表面补偿氢键缺失。
ProRule注释系统的升级
ProRule规则库通过整合标准化本体大幅提升注释质量。新增的ChEBI化学本体为金属离子结合位点提供唯一标识符,如锌指结构中的Zn2?配体注释(图4)。同时引入Rhea生化反应词典,使酶催化反应预测具备标准化描述框架。这些改进既保障了UniProtKB/Swiss-Prot注释的一致性,也为用户提供更可靠的功能预测信息。
技术架构的优化创新
数据库分布式架构重组将辅助信息分离至prosite.aux文件,显著提升扫描效率。全新开发的pfsearchV3算法支持多核处理器并行计算,并采用启发式策略加速大规模序列扫描。ScanProsite工具新增AlphaFold预测结构可视化功能,使用户能直观验证匹配结果的结构合理性。持久化URL(PURL)系统的引入确保学术引用链接的长期稳定性。
本研究通过多维度创新显著提升蛋白质功能注释的精度与广度。PROSITE数据库不仅为SARS-CoV-2研究提供关键技术支持,更通过OCA结构域的发现揭示转录因子调控网络的新维度。技术架构的现代化改造使数据库能够适应后基因组时代的海量数据处理需求,而标准化本体的整合则为系统生物学研究奠定坚实基础。这些成果彰显计算生物学方法在发现新生物学机制中的强大潜力,为未来蛋白质功能探索提供可靠范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号