SARST2:面向海量数据库的高通量资源高效蛋白质结构比对算法
【字体:
大
中
小
】
时间:2025年10月02日
来源:Nature Communications 15.7
编辑推荐:
面对AlphaFold DB释放的2.14亿预测结构带来的蛋白质结构大数据挑战,研究人员开发出集成一级、二级和三级结构特征与进化统计的SARST2算法。该算法采用机器学习增强的过滤-优化策略,在基准测试中准确率达96.3%,搜索速度比BLAST快24倍,内存占用减少88%,且数据库存储空间压缩99.2%,使普通个人计算机也能实现亿级结构数据库搜索。
随着AlphaFold2预测出所有已知序列的蛋白质结构,蛋白质结构大数据时代正式来临。截至2022年,AlphaFold数据库已发布2.14亿个预测结构,而结构数据库的扩张速度已开始赶上序列数据库。如何在海量且快速增长的结构数据库中高效识别同源蛋白质,成为当前结构生物学面临的重大挑战。
蛋白质结构比对历来比序列比对更耗时。以当前UniRef-90数据库(1.72亿个蛋白质)为例,使用广泛应用的PSI-BLAST进行序列比对搜索可能需要数小时,且计算成本每两年翻一番。面对大规模结构研究需求,提高结构比对效率将推动蛋白质科学技术多个领域的进步,包括结构建模、蛋白质组学、蛋白质-蛋白质相互作用组和药物发现等领域。
尽管早期算法如DALI和CE具有较高准确性,但比对一对结构需要数秒时间,无法满足大规模研究需求。随后发展的FAST和TM-align虽然将速度提升到每秒比对多个结构,却不支持直接数据库搜索。基于结构线性编码的算法如TOPSCAN、YAKUSA、3D-BLAST和SARST虽然实现了每秒筛查数千个蛋白质的速度,但准确性显著低于 pairwise 比对算法。
为解决这一难题,研究团队开发了SARST2算法,该算法整合了氨基酸序列、二级结构元素(SSE)、氨基酸类型(AAT)、Ramachandran编码序列(SARST)和加权接触数(WCN)等多种特征,采用机器学习增强的过滤-优化策略。通过对角线快捷词匹配、基于替换熵的可变gap惩罚等创新方法,在大型基准测试中准确率达到96.3%,同时比BLAST和Foldseek更快完成AlphaFold数据库搜索,且内存使用量显著减少。
主要技术方法包括:1)使用5符号AAT和4符号SSE字母表进行词匹配;2)采用合成动态规划(DP)对齐,结合WCN、SSE、AAT和AA序列;3)基于PSSM衍生的残基替换熵设计可变gap惩罚方案;4)应用决策树和人工神经网络(ANN)机器学习模型进行快速过滤;5)使用TM-score进行结构相似性评估。实验数据来源于SCOP 2.07数据库和AlphaFold DB-2022。
算法实现
SARST2采用四阶段过滤流程:词匹配过滤使用对角线快捷算法快速计数查询与目标之间的相似AA和SSE片段;初始DP过滤对齐SARST序列并消除低相似度目标;二级DP过滤基于SSE和AAT序列调整对齐;快速TM评分粗略计算结构相似性。通过分组搜索策略,仅评估组代表头结构,避免冗余计算。
准确性评估
使用Qry400和SCOP-2.07数据集进行信息检索评估,SARST2在所有召回水平上均优于BLAST和其他方法,平均精确度达96.3%,超过iSARST(94.4%)、FAST(95.3%)和Foldseek(95.9%)。在具有低序列同一性(1-20%)的SCOP家族水平同源物中,SARST2产生的比对序列同一性显著高于BLAST。
速度性能
使用单个CPU时,SARST2数据库搜索速度比FAST和TM-align快3300倍以上。支持并行计算时,在32个Intel i9处理器上速度提升10.6倍,而Foldseek、MADOKA和BLAST仅加速2.1-3.0倍。搜索一个查询结构针对SCOP-2.07达到100%召回平均仅需0.15秒,比Foldseek和BLAST分别快7倍和24倍。
数据存储效率
SARST2格式化数据库仅需0.5 TiB存储空间,相比AlphaFold DB原始格式(59.7 TiB)节省99.2%空间,比Foldseek格式(1.7 TiB)也更加经济。内存使用方面,SARST2搜索全AlphaFold DB仅需9.4 GiB内存,而BLAST需要77.3 GiB。
关键创新因素
加权接触数(WCN)的应用是SARST2的重要创新。与传统依赖几何比较的方法不同,WCN通过计算Cα原子间距离的倒数平方和来估计残基的堆积密度,能够编码残基间的长程相互作用。测试表明,WCN和closeness在搜索准确性上优于传统接触数(CN)。
可变gap惩罚方案基于查询蛋白的序列保守性特征,通过Shannon熵计算保守性谱,在高保守区域抑制gap开口,提高了远缘同源物比对的准确性。
词匹配策略使用缩减字母表(5符号AAT和4符号SSE),允许使用更大的词长(5-7个残基),提高了同源性特异性,并结合对角线快捷算法显著限制了搜索空间。
研究结论表明,SARST2在准确性和速度方面均优于最先进的结构比对方法,甚至超过了流行的BLAST序列比对算法。其高效率使研究人员能够在普通个人计算机上搜索数亿个结构,为结构生物学研究提供了强大的分析工具。随着Meta Platforms公司发布ESM Metagenomic Atlas(7.72亿预测结构,比AlphaFold DB大3.6倍),高效可扩展的结构比对方法变得愈发重要。SARST2的高通量解决方案有望在结构生物学及其他领域支持广泛应用,帮助研究界克服结构大数据分析的挑战,加速生物技术和医学科学的进步。
该算法已用Golang实现为跨平台独立程序,提供Linux、macOS和Windows版本,可通过10lab网站和GitHub获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号