
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ReAlign-P:一种基于垂直迭代重排策略的蛋白质多序列比对优化新方法
【字体: 大 中 小 】 时间:2025年07月27日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对蛋白质多序列比对(MSA)中存在的低相似性和复杂比对模式问题,开发了ReAlign-P这一垂直迭代重排工具。通过将初始比对划分为头、中、尾三区域并重点优化保守的中部区域,结合MUSCLE5实现迭代重排,显著提升了BAliBASE等四大基准数据集的Q和TC评分。相比现存唯一可用工具RASCAL,ReAlign-P在稳定性和准确性上均表现出显著优势,为下游生物医学研究提供了更可靠的比对基础。
在生物医学研究中,蛋白质多序列比对(MSA)如同拼图游戏中的基础图样,其准确性直接影响着蛋白质结构预测、功能注释和药物靶点发现等关键下游分析。然而,现有工具面临两大困境:一是蛋白质序列的高多样性和低相似性导致比对困难;二是传统"一旦有隙,永留其隙"的渐进式比对策略,使得早期出现的间隙错误会像多米诺骨牌一样贯穿整个比对过程。尽管迭代优化策略能在一定程度上改善这一问题,但内置的迭代机制提升空间有限,而现有的后处理工具如RASCAL又存在代码过时或优化效果不稳定的缺陷。
电子科技大学基础与前沿科学研究院的研究团队开发出ReAlign-P,这一创新工具采用三步走策略破解困局:首先像精准的外科手术般将初始比对划分为头、中、尾三个区域;随后聚焦于更保守的中部区域实施垂直迭代重排;最后通过智能拼接保留结构特征的端部区域。研究团队在四大权威数据集(BAliBASE v3、OXBench、PREFAB4和SABRE)上系统评估了10种不同参数配置的MSA工具生成的初始比对,发现ReAlign-P不仅能稳定提升各类初始比对的质量,更展现出较RASCAL更优异的鲁棒性——后者在某些情况下甚至会导致比对质量下降。这项发表于《Bioinformatics》的研究,为生物信息学领域提供了首个高效可靠的蛋白质MSA专用后处理工具。
关键技术方法包括:1)基于无间隙列识别实现三区域分割;2)采用MUSCLE5进行垂直迭代重排;3)运用BLOSUM62矩阵和-6分值的氨基酸-间隙罚分(scoreaa-gap)作为默认目标函数;4)通过数值矩阵映射识别变化/未变化区域;5)在1682组PREFAB4结构共识比对等四大数据集上进行验证。
通过扫描初始比对的所有列,将完全由残基组成的列标记为1,其余标记为0,据此确定切割位点。这种策略有效保留了可能具有结构意义的末端区域,同时集中优化更可能包含比对错误的中间区域。

核心创新在于动态识别变化区域并进行迭代优化:每次迭代移除所有间隙字符后重新比对,通过比较Ainitial和Arealigned的数值矩阵映射结果,选择目标函数得分更高的版本进入下一轮迭代。这一过程持续至比对结果收敛,确保获得最优解。

系统比较FFT-NS-I和MUSCLE5在四大数据集上的表现,发现MUSCLE5在所有基准测试中均能带来更高的Q和TC评分,因此被确立为默认MSA工具。

实验数据显示,无论初始比对是否经过内置迭代优化,ReAlign-P均能显著提升BAliBASE和PREFAB4数据集的Q/TC评分。特别在ClustalO、FFT-NS-I等工具生成的比对中,Q评分提升幅度高达15%。
在BAliBASE数据集上,RASCAL对7种工具生成的初始比对产生了"负优化",而ReAlign-P则始终保持正优化效果。虽然ReAlign-P运行时间略长(平均增加18%),但其带来的精度提升显著优于RASCAL。

这项研究的重要意义在于:首次提出针对蛋白质MSA的垂直分区优化策略,解决了现有工具要么过时要么不稳定的行业痛点。通过创新的三区域划分法和保守区域聚焦优化,ReAlign-P不仅填补了蛋白质专用重排工具的空白,其开源的MIT许可证实现更便于学术界和工业界应用。正如研究者指出,该方法特别适用于远缘同源蛋白比对等挑战性场景,为后续的蛋白质结构预测和进化分析提供了更可靠的数据基础。国家科技重大专项(2022ZD0117700)和国家自然科学基金(62425107)的支持,也体现了该研究在国家战略层面的重要性。
生物通微信公众号
知名企业招聘