基因年龄塑造果蝇精液蛋白质组的功能与进化特性:古老Sfp基因的多效性约束与年轻基因的快速进化网络
【字体:
大
中
小
】
时间:2025年10月08日
来源:Proceedings of the National Academy of Sciences 9.4
编辑推荐:
本研究通过系统发育分析揭示果蝇精液蛋白(Sfp)基因中62%为古老起源(早于果蝇属分化),颠覆了Sfp基因普遍年轻的认知。古老Sfp基因具有更广泛的组织表达、更多样的生物学功能(多效性)和更多非Sfp蛋白互作,其序列进化受选择约束更强;年轻Sfp基因则形成快速进化的核心互作子网,主导生殖特异性功能。该研究强调了基因年龄在解析繁殖蛋白质组进化机制中的关键作用。
在许多生物类群中,精液蛋白(Sfps)在交配过程中被转移至雌体,引发独特的生理和行为效应。传统上认为Sfp编码基因属于年轻基因类别,具有加速的序列分化特征。然而本研究表明,这些快速进化的Sfp基因仅代表Sfp基因库的一个子集,其中大多数基因早在果蝇属(Drosophila)出现之前就已起源。与年轻Sfp基因不同,古老基因显示更广泛的雄性生殖功能关联性和更低的多效性,形成紧密的蛋白质互作子网络。研究结果突显了基因年龄在区分功能广泛的古老Sfp基因与驱动多样化和适应性的年轻基因亚群之间的重要性。
精液蛋白(Sfps)对动物生殖成功至关重要。由于相对其他基因表现出更高的基因获得与丢失率以及快速的序列进化,Sfp编码基因一直被认为是进化上年轻的基因。利用包括果蝇属外群物种的基因组资源,本研究基于对每种黑腹果蝇(Drosophila melanogaster)Sfp基因系统发育起源的评估,考察了357个Sfp基因的功能属性和进化特征与其进化年龄的关系。与许多Sfp基因是进化上年轻的普遍认知相反,62%的基因存在于该属祖先的基因组中。这些古老基因具有更广泛的表达谱、更 expansive 的生物学角色,并与非Sfp基因有更多互作。这种增强的多效性限制了古老Sfp基因的序列进化速率,使其低于年轻基因。值得注意的是,这些年轻Sfp基因在适应性和非适应性进化力量的共同驱动下进化速度显著更快。在Sfp互作组(interactome)中,我们识别出一个由年轻基因组成的快速进化核心子网络,这些基因具有更受限的组织表达和功能。我们的系统研究方法揭示了一大类古老的Sfp基因,它们与更常被研究的年轻Sfp基因相比,具有独特的基因组、功能和进化特征。
The Sfp Gene Complement Is Evolutionarily Ancient.
研究整合了两个独立研究组采用部分不同标准鉴定的结果,在黑腹果蝇中 catalog 了357个Sfp编码基因,其中约三分之二(228个)为两项研究共同认定。利用基于最大简约框架推断的基因年龄——该框架利用全基因组 pairwise 比对,并综合微共线性(microsynteny)和 reciprocal best-hit 支持信息进行基因年龄划分,涉及17个果蝇物种加上黑腹果蝇——将所有基因(一个假基因LysC除外)划分为从古老到年轻的五个年龄类别(A-E)。关键的是,该框架对因快速序列分化、基因组注释不完整或组装间隙导致的直系同源基因遗漏不那么敏感。两个远缘外群物种——来自果蝇科(Drosophilidae)的Scaptodrosophila lebanonensis和来自实蝇科(Tephritidae)的Bactrocera dorsalis——为可靠的基因年龄估计提供了必要的系统发育深度。
使用来自D. pseudoobscura的90个蛋白质和升级注释的D. willistoni的133个基因模型(均与D. melanogaster Sfp基因存在1对1直系同源关系)进行独立验证,在178个应属于A、B或C年龄类的基因中仅发现5个不一致,支持了基因年龄分类的可靠性。
研究发现在357个Sfp基因中,有220个起源于果蝇属辐射之前,136个起源于辐射期间(A类对B-E类:62.0%对38.0%)。然而,与它们在全部基因组基因中的占比相比,A类基因的代表性不足(卡方拟合优度检验,χ2 = 333.74,d.f. = 4,P < 2.2 × 10?16)。这一结论在使用更保守的228个Sfp基因集时仍然成立。这些结果表明,虽然Sfp基因总体上比基因组中大多数基因年轻,但许多(220/357)具有古老起源,这对Sfp基因具有相对近期起源的前提提出了挑战。性肽(SP)网络的九个已知基因中有八个属于A类,一个属于B类,意味着它们全部在果蝇属分化之前就已存在,这与在其他物种中发现SP基因的证据一致。
Ancient Sfp Genes Are More Pleiotropic and Evolutionarily Constrained than Younger Sfp Genes.
研究调查了不同多效性指标是否与不同年龄类别的Sfp基因均匀相关。基因本体(GO)术语分析显示,只有A类基因富集了超出严格生殖关联(如有性生殖、授精或雌性接受性调节)的功能术语。检索到的163个Sfp基因的蛋白质-蛋白质相互作用(PPI)数据表明,所有年龄类别在Sfp互作组中的代表性相等,连接性也无显著差异。然而,当排除与非Sfp的互作,仅分析Sfp蛋白间的互作时,发现了显著差异:A类Sfps的互作数量显著少于C类,与B类和E类相比也呈减少趋势(尽管不显著)。相反,分析Sfp互作组外的互作时,发现A类Sfps具有显著更多的互作。这些结果在仅考虑228个共有Sfp基因时是一致的。
表达特性分析表明,A类基因的组织特异性(τ指数)显著低于其他年龄类别,更少是雄性生殖腺(MRGs)特异性的,并且总体上更不可能表现出组织特异性。
利用来自近缘物种D. simulans和两个不同黑腹果蝇种群( ancestral 的 Zambia (ZI) 种群和 derived 的 Raleigh (RAL) 种群)的种间和种内序列信息,研究发现起源于果蝇属辐射前的Sfp基因显示出较低的非同义替换与同义替换比率(ω),即进化速度较慢。这种较低的进化速率是它们的适应性(ωa)和非适应性(ωna)进化速率均受到限制的结果。
The Sfp Interactome Includes Subnetworks with Distinct Functional and Evolutionary Properties.
在163个有PPI信息的基因中,发现98个形成了六个包含≥4个成员的子网络,其中一个主导的核心子网络包含了56%(64/98)的Sfps。核心子网络随着不同年龄类别Sfps的加入而扩展,富含来自E类的年轻Sfps(尽管统计上不显著)。该核心子网络还包括了所有可获得PPI数据的SP网络成员(六个)。第二和第三大子网络分别显著富集了A类和D类Sfps。重要的是,与GO术语富集分析一致,核心子网络中的基因显著与生殖角色相关,而第二大和第四大子网络则缺乏这类基因。
已知Sfps在物种间序列水平上是进化最快的蛋白质之一。鉴于核心子网络独特的进化动态,研究发现核心子网络中的Sfp基因进化更快,其适应性和非适应性进化速率存在种群特异性差异。这些发现凸显了Sfp基因库中这个相对年轻的生殖子网络独特的功能和进化特征。
Paralog Sfp Genes Have a Negligible Impact on Differential Age-Related Patterns.
使用DIOPT v9.0识别旁系同源Sfp基因群组并重新评估几个关键特征后,发现在任何情况下,处理数据以考虑旁系同源群组内的重复属性都没有改变研究结论。这些结果证实了基因集独特的功能和进化特性并未受到旁系同源冗余的混淆。
研究结果阐明了Sfp基因功能与进化特征的年龄依赖性。与Sfp基因快速进化且年轻的普遍看法相反,研究发现相当大比例的Sfp基因在进化上是古老的。古老Sfp基因更广泛的功能库和连接性对其进化动态施加了实质性约束。目前尚不确定进化上古老的Sfps是随着时间的推移拓宽了其功能角色,还是其功能本就多样,后来被重新用作Sfps。先前的比较结构建模和蛋白质类别富集分析发现果蝇Sfps与哺乳动物蛋白质共享结构相似性和功能特征,这可能暗示了祖先Sfps后来被共同选择(co-option)到物种特异性的生殖相关功能中。
本研究展示了将基因年龄分类整合到系统分析中的价值。超越宽泛的功能类别使我们能够检测到仅在考虑基因进化起源及其在互作网络中的位置时才出现的模式。这种视角可以揭示在多样化和适应性中扮演不成比例角色的特定基因和基因网络,为理解生殖系统的进化及相关表型的遗传基础提供线索。
研究基于两个独立努力旨在鉴定黑腹果蝇中高置信度Sfp编码候选基因的成果,重点关注了被任一研究认为是高置信度的357个Sfp候选基因,并使用被两项出版物共同认定的更保守的228个基因集重复了关键分析。
Phylogenetic Gene Age Dating.
基因年龄推断基于果蝇属18个物种和两个外群物种(S. lebanonensis和B. dorsalis)间的同线比对。使用GageTracker中实施的简约框架,将基因分配到物种系统发育的特定分支。与先前尝试相比,新信息整合了更多物种的基因组,包括10个新物种,以及使用长PacBio HiFi reads scaffold 的更连续基因组。包含了两个独立的推定的现存Sfp编码基因数据集,以验证在A、B和C年龄类中的年龄推断。
Sfp Interactions and Functional Properties.
从FlyAtlas2检索了31个成年组织和身体部位的RNAseq组织表达值,用于计算每个Sfp基因的组织特异性指数(Tau Index, τ)。使用STRING v12在高置信度阈值下预测每个Sfp的蛋白质-蛋白质相互作用(PPI)数量并构建Sfp网络,排除了文本挖掘分数。使用Cytoscape v3.10可视化PPI网络。在STRING中检查了生物学过程GO术语的富集情况(5% FDR),并使用REVIGO排除了冗余术语。基于DIOPT v9.0的信息确定了Sfp基因间的旁系同源关系。
Rates of Nucleotide Sequence Evolution.
从D. simulans与黑腹果蝇的非洲(Zambia, ZI)种群197个品系和北美(Raleigh, RAL)种群205个品系间的序列比较中检索了每个基因的同义和非同义核苷酸替换,使用了iMKT R包。该包提供了不同群体遗传参数的单基因估计值。下载了等位基因频率谱,并应用5%频率阈值来估计非同义类别中的中性分离位点数量。这些校正后的估计值用于计算α(由正选择驱动的核苷酸替换比例),进而用于计算适应性(ωa)和非适应性分子进化(ωna)的速率。
使用R中的内置函数进行了双尾Fisher精确检验、卡方拟合优度检验、卡方独立性检验、残差分析、Kruskal-Wallis秩和检验、Mann-Whitney pairwise 检验以及Benjamini-Hochberg多重检验校正。使用内部脚本执行了蒙特卡洛模拟(n = 100,000)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号