编辑推荐:
在蛋白质功能注释远落后于测序速度的当下,研究人员开展了 “EvoWeaver:从共进化信号大规模预测基因功能关联” 的研究。他们开发 EvoWeaver 方法,整合 12 种共进化信号,能准确识别功能关联基因,有助于填补数据库空白,推动生命科学研究。
在生命科学的神秘世界里,蛋白质就像一把把神奇的钥匙,掌控着生命活动的各种奥秘。随着基因组测序技术的飞速发展,我们能够快速测定大量蛋白质的序列,但尴尬的是,我们对这些蛋白质功能的了解却远远滞后。目前,已知未被注释功能的蛋白质数量如潮水般增长,而通过实验室研究来注释其功能的速度却如蜗牛爬行般缓慢。传统的计算注释方法往往依赖于与已知研究蛋白质的相似性,这就导致大量未被研究的蛋白质被无情忽视,使得功能注释的不平等问题日益严重。此外,现有的共进化算法在准确性和可扩展性方面存在不足,难以将整个蛋白质宇宙中的蛋白质相互联系起来。为了突破这些困境,来自美国匹兹堡大学(University of Pittsburgh)生物医学信息学系和匹兹堡进化生物学与医学中心的研究人员 Aidan H. Lakshman 和 Erik S. Wright 开展了一项重要研究,相关成果发表在《Nature Communications》上。
研究人员开发了一种名为 EvoWeaver 的创新方法,该方法巧妙地整合了 12 种共进化信号(包括系统发育谱、系统发育结构、基因组织和序列水平等方面的信号),以此来精准量化基因之间的共进化程度,进而预测蛋白质编码基因之间的功能关联。
在研究方法上,主要采用了以下关键技术:一是构建 EvoWeaver 对象,利用输入的基因树和可选元数据,通过特定算法对基因进行各类共进化分析;二是运用机器学习分类器(逻辑回归、随机森林和神经网络),对已知功能关联的蛋白质编码基因对进行训练,从而实现对未知关联基因对功能的预测;三是借助 KEGG 数据库、CORUM 数据库等构建基准数据集,用于评估算法性能。
在研究结果部分:
- 集成方法准确识别功能关联基因:研究人员利用 KEGG 数据库构建了 Complexes 基准数据集和 Modules 基准数据集。在 Complexes 基准测试中,几乎所有共进化算法在识别参与同一复合物的 KO 组时表现良好,序列水平方法相对稍弱。而集成方法(逻辑回归、随机森林和神经网络)的预测能力超越了单个共进化信号,其中逻辑回归表现最佳。在 Modules 基准测试中,尽管组件算法的性能略逊于 Complexes 基准测试,但集成方法依然保持高性能。此外,通过 CORUM 数据库测试发现,EvoWeaver 在预测人类蛋白质参与常见复合物方面,虽然 12 个组件算法的准确性低于在 KEGG 数据库上的表现,但仍优于其他常用方法。而且,在没有训练集成分类器的情况下,简单组合 EvoWeaver 的组件算法,其性能在所有基准测试中与最佳预测器相当,尤其在低假阳性率时表现突出。
- EvoWeaver 推断基因间的层次关系:研究人员创建了 Multiclass 基准数据集,该数据集包含来自 KEGG 模块块的五组基因对,按照功能关联程度从高到低排列为直接连接、同一模块、同一途径、同一全局途径和不相关。通过五折交叉验证,使用随机森林模型对 642,770 对模块块进行分类预测。结果表明,所有 12 个预测器都对集成分类器的准确性有贡献,随机森林预测大多能正确分类或分到相邻类别。此外,通过构建模块块网络并进行 Louvain 聚类分析发现,EvoWeaver 能够部分重现 KEGG 途径,但也存在将一些同一模块对错误分类为直接连接的情况。
- EvoWeaver 与 STRING 相媲美且不依赖外部数据:STRING 是功能关联基因知识的综合数据库之一,其总得分由七种证据流组成。研究人员将 EvoWeaver 与 STRING 进行比较,发现 STRING 的大部分预测性能依赖于外部数据(如文本挖掘和数据库)。而 EvoWeaver 在不依赖外部数据,仅使用序列信息的情况下,其随机森林预测结果与不包含文本挖掘的 STRING 预测结果大致匹配。并且,当两种方法都仅限于不依赖先验知识的预测器时,EvoWeaver 的集成方法表现更优。
- EvoWeaver 为功能关联假设提供依据:研究人员以人类基因 B3GNT5 和 ST6GAL1 为例进行案例研究。这两个基因在 KEGG 数据库中没有共同模块或途径,但 EvoWeaver 预测它们为直接连接或同一模块的概率较高。这一预测得到了实验证据的支持,表明 EvoWeaver 的预测可以生成可靠的生物学假设。此外,研究人员还对 EvoWeaver 的一些 “错误预测” 进行深入研究,发现许多预测结果实际上得到了共进化和实验证据的支持,只是由于 KEGG 数据库对模块的定义问题导致分类差异。同时,在研究一组基因功能关系未知的情况时,EvoWeaver 的集成预测能够生成更准确的连接,进一步证明了该方法的有效性。
在结论和讨论部分,EvoWeaver 充分展示了利用共进化原理发现功能关联的强大能力。它具有高度可扩展性、更高的准确性,并且在单个软件包中标准化应用多种算法,解决了共进化分析在大规模数据集应用中的关键问题。与以往方法不同,EvoWeaver 基于直系同源组进行操作,减少了对参考生物的依赖,增强了对数据错误指定的鲁棒性。EvoWeaver 能够为研究未被充分研究的蛋白质功能提供有价值的假设,助力完善生物知识数据库,在未来的生命科学研究中具有广阔的应用前景,有望为解决功能注释不平等问题带来新的曙光。