
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于系统发育感知的分子共进化检测新算法PHACE:突破进化相关性干扰
【字体: 大 中 小 】 时间:2025年07月13日 来源:Molecular Biology and Evolution 11.0
编辑推荐:
本研究针对现有共进化检测工具忽略系统发育相关性(phylogenetic relatedness)和共享进化历史(shared evolutionary history)的问题,开发了PHACE算法。该算法通过将氨基酸替换映射至系统发育树,并结合"容忍/不容忍"氨基酸分类,显著提升了分子共进化检测的准确性。实验表明,PHACE在AUC、MCC等指标上优于CAPS、CoMap及DCA等主流工具,为蛋白质结构与功能研究提供了更可靠的共进化信号解析方法,相关成果发表于《Molecular Biology and Evolution》。
蛋白质分子间的共进化关系是理解其结构与功能的关键线索。现有工具如DCA、CAPS等依赖多序列比对(Multiple Sequence Alignment, MSA)检测共进化,却常忽略一个核心问题:物种间的系统发育相关性会引入虚假信号。例如,一次祖先节点的氨基酸替换可能在多个后代中重复出现,被误判为"独立共进化事件"。更棘手的是,高变异性位置(如容忍多种中性氨基酸替换)会掩盖真正的共进化模式。这导致传统方法在区分真实共进化与进化"噪音"时准确性不足,直接影响蛋白质结构预测和功能推断的可靠性。
为突破这一瓶颈,土耳其萨班奇大学(Sabanci University)的研究团队开发了PHACE(Phylogeny-Aware Detection of Molecular Co-Evolution)算法。该算法创新性地整合系统发育树、祖先序列重建(Ancestral Sequence Reconstruction, ASR)与动态氨基酸分类策略:首先,通过树遍历量化每个分支上独立的氨基酸替换事件;其次,基于替换频率将氨基酸分为"容忍组"(如高频出现的A/T)和"不容忍组",避免中性变异干扰;最后,引入分支权重(基于进化速率)和间隙处理机制,精准捕捉位点间的协同变化。实验证明,PHACE在识别结构邻近位点(Cβ-Cβ距离<8 ?)的共进化信号时,AUC值显著优于现有工具(p<0.001),为蛋白质研究提供了更鲁棒的共进化分析框架。相关成果已发表于进化生物学顶级期刊《Molecular Biology and Evolution》。
研究采用以下关键技术:
数据准备:从PHACT数据库获取5,123个人类蛋白质的MSA与最大似然系统发育树(RAxML-NG构建)。
祖先序列重建(ASR):利用IQ-TREE计算内部节点的氨基酸概率分布,支持容忍/不容忍氨基酸分类。
树遍历与替换量化:遍历树分支,累加相邻节点间的正概率差异(positive probability differences),表征独立替换事件。
分支多样性权重:基于分支总变异度动态调整权重,抑制高变异分支的噪音。
Abstract
PHACE算法通过映射氨基酸替换至系统发育树,解决了传统MSA工具忽略进化依赖性的缺陷。其核心创新包括:
容忍/不容忍氨基酸聚类:依据独立替换频率动态分类氨基酸(如A/T归为容忍组),揭示隐蔽的共进化信号(图1B)。
间隙处理机制:将间隙作为独立字符,通过双MSA策略(MSA1:氨基酸聚类;MSA2:氨基酸/间隙二分)精准识别独立间隙事件。
加权一致性相关系数(WCCC):量化位点间替换事件的时空匹配性,权重融合分支多样性与替换幅度。
Results
性能验证:基于652个PDB蛋白质结构(接触位点定义:Cβ-Cβ距离<8 ?),PHACE在两类测试集上均显著领先:
全位点对测试(图3A):PHACE的AUC均值(0.89)高于DCA(0.78, p<0.001),因算法消除了系统发育伪相关(图1A)。
长距离位点对测试(间隔>5氨基酸)(图3B):PHACE的MCC值(0.72)远超CoMap(0.41),归功于容忍组聚类排除高频噪音(图1B)。
关键优势案例(图7):
传统工具(如DCA)误将完全保守位点判为共进化(图7A),而PHACE正确排除。
高变异性位点中,PHACE通过聚类策略成功捕获真实共进化信号(图7B)。
PHACE首次系统整合了系统发育依赖性消除、位置动态容忍度建模与分支权重优化,解决了共进化分析中两大瓶颈——进化相关伪信号与高频中性变异干扰。其意义体现在:
方法学突破:WCCC指标与动态聚类策略为共进化检测设立新标准,推动领域从"相关性统计"转向"进化事件驱动"范式。
应用前景:可扩展至蛋白质-蛋白质相互作用预测,通过构建共进化MSA提升互作推断准确性;未来整合补偿性替换(compensatory changes)模型将进一步增强功能耦合位点识别。
生物医学价值:高精度共进化信号有助于解析致病突变(如PHACT算法优化)和蛋白质结构-功能关系,为疾病机制研究提供新工具。
该研究不仅革新了分子共进化分析框架,更凸显了系统发育思维在计算生物学中的核心地位——唯有追溯进化历史,方能解码生命分子协作的本质。
生物通微信公众号
知名企业招聘