综述:数据洪流与人工智能时代下的直系同源物探索——直系同源预测与数据整合的挑战与创新
《Journal of Molecular Evolution》:Quest for Orthologs in the era of Data Deluge and AI: Challenges and Innovations in Orthology Prediction and Data Integration
【字体:
大
中
小
】
时间:2025年10月16日
来源:Journal of Molecular Evolution 1.8
编辑推荐:
本综述系统总结了第八届Quest for Orthologs(QfO)会议的核心进展,聚焦于直系同源(orthology)预测在基因组数据爆炸和人工智能(AI)时代面临的新挑战与解决方案。文章深入探讨了将orthology概念扩展到多结构域蛋白质、可变剪接转录本和microRNA(miRNA)等复杂遗传特征的创新方法,强调了人工智能(如蛋白质语言模型PLMs)和结构预测工具(如AlphaFold)在提升预测精度与可扩展性方面的突破性应用。同时,综述还涵盖了orthology在功能注释、比较基因组学、环境生态学和农业研究中的广泛应用,为理解基因功能和进化提供了关键框架。
随着DNA测序技术和计算算法的快速发展,全球范围内多个大规模测序项目推动了基因组数据的空前增长。直系同源(orthology)在理解基因进化模式及其功能方面扮演着关键角色。在2024年于加拿大蒙特利尔举行的第八届Quest for Orthologs(QfO8)会议上,研究人员重点讨论了将orthology和paralogy概念应用于环境研究、农业和比较基因组学的进展,并报告了orthology推断方法和资源的最新发展。
orthology最初是在物种树推断的背景下提出的,但过去几十年的研究揭示了内含子、可变剪接、催化RNA等许多在1970年未知的基因组特征。此外,大型基因家族的复杂性促使研究人员认识到一对一、多对多直系同源集合的存在。随着基因组数据的不断积累和分析方法的进步,orthology关系的复杂性日益凸显,这引发了一个重要问题:如何将orthology概念有效地扩展到其他遗传特征?任何新定义不仅应反映该特征的基本属性,还应与orthology的原始概念保持一致,并足够形式化以支持算法开发和明确的特征识别。
编码多结构域蛋白质的马赛克序列是orthology推断中一个特别具有挑战性的案例。结构域是由二级结构元素打包成疏水核心形成的自稳定单元。蛋白质通常具有保守的功能结构域,这些结构域对其活性至关重要,且许多蛋白质以多个结构域的存在为特征。结构域可以通过重复、插入、融合和丢失在蛋白质内部和之间重排,因此它们的进化历史通常比全长蛋白质更复杂。研究表明,全长蛋白质的比较可能会产生误导,因为同一蛋白质中的不同结构域可能具有不同的进化轨迹,且直系同源物可能不具有相同的结构域内容。尽管这种情况通常很少见,但在非常密切相关的物种之间也会以低频率发生。
早在二十多年前,Fitch(2000)就认识到为具有不同结构域内容的蛋白质定义orthology所带来的挑战,并称之为“重组问题”——这是QfO8会议上多个报告强调的长期挑战。一些orthology数据库,如COG(Galperin et al. 2021)或MBGD(Uchiyama et al. 2019),为原核生物纳入了结构层级的概念,但直接解决真核生物中结构层级orthology问题的工作很少。QfO8上的三个报告致力于在不同蛋白质组织层级上识别和解释orthology。
Erik Sonnhammer介绍了InParanoidDB(第9版),这是唯一明确包含结构层级直系同源物的数据库。该功能支持全长和结构域特异性直系同源物的比较,以研究进化关系,揭示结构域orthology不一致的案例。为实现推断可能在全长蛋白质比较中未被捕获的直系同源结构域的目标,InParanoidDB使用Domainoid(Persson et al. 2019),其结构域定义基于Pfam数据库(Mistry et al. 2021)。此外,InParanoidDB(Persson and Sonnhammer 2022)使用DIAMOND工具进行不断增长的完整蛋白质组的orthology分析,与BLAST(Altschul et al. 1990)等传统工具相比显著减少了运行时间。
Lars Arvestad和Dannie Durand专注于全长多结构域orthology的概念。共享部分但非全部结构域的直系同源物可能出现在共享共同祖先的序列经历谱系特异性结构域增益或丢失时(例如,图2中的中央家族)。共享部分但非全部结构域的序列也可能出现在同一结构域家族的实例被独立插入到其他不相关序列中的情况下。两种情景都会产生至少有一个共同结构域的序列对,但只有第一种情景对应于蛋白质层级的orthology(Song et al. 2008)。挑战在于区分两者。
在实际应用中,可以利用序列相似性网络中的图结构来区分这些情况,其中节点代表蛋白质序列,边代表成对相似性。直系同源家族在此类网络中表现为密集子图。邻域相关性(Song et al. 2008)可以区分密集子图和指示结构域共享的模式,在 curated 多结构域家族中优于序列比较(Joseph and Durand 2009)。这种方法可以进一步利用同线性信息(Ali et al. 2013, 2016)进行增强。然而,可扩展性是一个问题。Lars Arvestad介绍了最近算法创新,以提高邻域相关性的效率。这些进展为在数百万序列的网络中识别同源性提供了基础(Durairaj et al. 2023)。
多结构域家族的orthology预测将极大地受益于对支配功能性蛋白质中允许哪些结构域组合的“设计规则”的更好理解(Vogel et al. 2005; Cui et al. 2022)。Xiaoyue Cui使用自然语言嵌入技术的初步结果将真实的结构域组合与代表自然界未观察到的结构域组合的人工数据分开。她的结果表明,嵌入为探索结构域邻接和共现
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号