结构系统发育学揭示革兰氏阳性菌及其病毒通讯系统的进化分化机制
【字体:
大
中
小
】
时间:2025年10月11日
来源:Nature Structural & Molecular Biology 10.1
编辑推荐:
本研究针对远缘进化关系中序列信息饱和导致的系统发育重建难题,利用人工智能预测的蛋白质结构数据,开发了基于局部结构字母表(3Di)的FoldTree系统发育推断方法。通过大规模评估发现,该方法在拓扑一致性和分子钟遵循度上优于传统序列方法,并成功解析了快速进化的RRNPPA群体感应受体家族的进化历史,为深度进化研究提供了新范式。
在生命进化研究领域,达尔文提出的系统发育树一直是揭示生物体、病毒和基因进化关系的核心工具。传统系统发育分析主要依赖于氨基酸序列比对,然而在长进化时间尺度上,序列位点的多次替换会导致信号饱和,使得远缘关系的推断变得极其困难。尤其对于快速进化序列(如病毒或免疫相关蛋白),基于序列的方法在突破"黄昏区"限制方面面临巨大挑战。
与快速演变的序列不同,蛋白质三维结构因其受到功能约束而进化速率较慢,理论上能够追溯更深的进化历史。但长期以来,结构系统发育学发展受限于两大瓶颈:实验测定结构的稀缺性以及缺乏可靠的结构距离度量方法。近年来人工智能蛋白质结构预测的革命性突破(如AlphaFold和ESM模型),使得大规模获取高精度结构模型成为可能,为结构系统发育学带来了前所未有的机遇。
在这项发表于《Nature Structural & Molecular Biology》的研究中,David Moi和Charles Bernard等研究人员系统评估了九种基于结构的系统发育重建方法,发现结合局部结构字母表(3Di)和序列信息的FoldTree方法表现最佳。该方法通过Foldseek软件实现结构比对,利用3Di字母表将三维结构信息转化为字符串进行比较,有效避免了构象变化对传统结构距离指标(如RMSD和TMscore)的干扰。
研究团队建立了严格的树准确性评估框架,采用分类学一致性评分(TCS)和分子钟遵循度作为核心评价指标。通过对4,592个OMA蛋白家族(序列定义)和488个CATH蛋白家族(结构定义)的大规模测试,发现FoldTree在两类数据集上均能产生更高比例的拓扑最优树,且具有最低的根到尖方差,表明其更好的分子钟遵循性。
为展示结构系统发育学的实际应用价值,研究人员聚焦于革兰氏阳性菌中快速进化的RRNPPA(Rap, Rgg, NprR, PlcR, PrgX和AimR)群体感应受体家族。这些受体分布于细菌、质粒和噬菌体中,通过感知分泌的通讯肽来调控群体行为,包括毒力、生物膜形成、孢子形成、接合转移以及裂解-溶原决策等关键生物学过程。由于该家族序列变异迅速,基于序列的系统发育重建一直存在争议。
通过核心切割(corecut)流程处理域架构变异问题,研究团队构建了RRNPPA家族核心结构域的系统发育树。结构系统发育揭示了一个更加简约的进化历史:五个TPR(tetratricopeptide repeat)折叠的受体(PlcR, TprA, PrgX, TraA, ComR和Rgg)形成进化枝A;九个TPR非退化受体(QssR, NprR和Rap)构成进化枝B;而九个TPR退化受体(AloR和AimR)组成进化枝C。这一结果比序列树显示的拓扑结构更加合理,避免了不同域架构类型间的相互嵌套。
特别值得注意的是,AimR亚家族作为噬菌体调控裂解-溶原决策的关键受体,在结构树中与Paenibacillaceae的第八亚家族聚为一支,表明病毒通讯系统可能是从与Paenibacillaceae共享的祖先受体中招募而来。这一发现得到了通讯肽序列相似性的支持——两个亚家族的成熟通讯肽均含有高度保守的DPG基序。
研究表明,TPR退化水平与进化距离密切相关:进化枝B(非退化TPR)比进化枝C(退化TPR)更接近九个TPR折叠的最后共同祖先;而在五个TPR的进化枝A中,PlcR-TprA分支比PrgX-TraA-ComR-Rgg分支更少从祖先状态分化。受体TPR序列的退化程度因此可作为衡量从家族最后共同祖先分化程度的重要标记。
技术方法上,研究主要采用:1)基于Foldseek的结构比对与3Di字母表转换;2)核心区域提取流程处理域架构变异;3)分类学一致性评分(TCS)和分子钟遵循度评估树质量;4)从UniProt和AlphaFold数据库获取的大规模结构数据;5)对CATH和OMA数据集的系统 benchmarking。
研究结论表明,结构系统发育学能够突破序列饱和的限制,揭示更深层的进化关系。FoldTree方法在保持对细粒度进化历史解析能力的同时,在远缘关系重建方面展现出显著优势。该研究不仅为解决RRNPPA家族的进化争议提供了新见解,更为广泛领域的深度进化研究提供了可靠工具,包括病毒进化、快速进化蛋白以及追溯至最早自我复制细胞的蛋白家族历史。
这项工作的成功证明了结构信息在系统发育重建中的巨大潜力,预示着在人工智能预测结构的新时代,结构系统发育学将成为进化生物学研究中不可或缺的强大工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号