昆虫来源衍生lncRNA的进化全景与调控动力学研究
《Communications Biology》:The landscape and evolutionary dynamics of derived lncRNAs in insects
【字体:
大
中
小
】
时间:2025年12月12日
来源:Communications Biology 5.1
编辑推荐:
本研究针对昆虫长链非编码RNA(lncRNA)进化机制不清的问题,通过系统分析115种昆虫的转录组数据,首次揭示衍生lncRNA(derived lncRNAs)通过蛋白编码基因演化产生的新机制。研究发现这类lncRNA具有更高表达水平、更强调控复杂性及功能保守性,为理解昆虫适应性进化提供新视角。成果发表于《Communications Biology》。
在生命演化的长河中,昆虫以其惊人的多样性和适应性征服了地球各个角落。这些六足精灵的成功秘诀,很大程度上隐藏在其基因组的复杂调控网络中。近年来,科学家们发现一类名为长链非编码RNA(long non-coding RNAs, lncRNAs)的分子在其中扮演着关键角色。这些长度超过200个核苷酸的RNA分子,虽然不编码蛋白质,却能像交响乐指挥家一样精确调控基因的表达,影响昆虫的发育、性别决定甚至抗药性等重要生命活动。
然而,面对超过百万种的昆虫多样性,科学界对lncRNA的认识仍存在巨大空白。尤其令人困惑的是,这些调控分子在进化过程中如何产生?它们是否遵循特定的演化规律?更关键的是,在浩如烟海的非编码转录本中,如何快速识别那些具有重要功能的lncRNA?这些问题一直困扰着研究人员。
为了解开这些谜团,浙江大学昆虫科学研究所何康团队联合云南省农业科学院刘英团队开展了一项规模空前的国际合作研究。研究人员收集了115种昆虫的30,840个转录组样本,数据量高达147Tb,构建了迄今为止最全面的昆虫lncRNA图谱。这项发表于《Communications Biology》的研究,不仅揭示了昆虫lncRNA的进化规律,更发现了一类特殊"衍生lncRNA"(derived lncRNAs)——它们源自蛋白质编码基因的演化蜕变,在昆虫生命活动中发挥着独特而重要的作用。
研究团队采用多步骤生物信息学分析流程:首先从NCBI数据库获取115种昆虫的RNA-seq数据,使用HISAT2进行序列比对,StringTie进行转录本组装;接着通过FeeLnc和CPC2工具筛选多外显子lncRNA;利用OrthoFinder构建同源基因家族;采用MUMmer进行基因组比对以识别合成性关系;通过miRanda预测miRNA结合位点;使用WGCNA进行共表达网络分析。转座元件(TE)注释采用EDTA流程,启动子区转录因子结合位点分析基于AnimalTFDB数据库。
研究人员系统鉴定了115种昆虫的647,691个多外显子lncRNA,发现不同物种间lncRNA数量存在36倍差异(1,119-40,850个)。通过样本量饱和曲线分析,揭示约500个覆盖不同发育阶段和组织的转录组是全面鉴定lncRNA的基准线。进一步分析表明,lncRNA数量与基因组大小(R=0.927)及转座子含量(R=0.510)均呈显著正相关,提示大基因组和转座元件的活跃性可能促进lncRNA的产生。
通过OrthoFinder构建的60,177个lncRNA同源家族显示,超过50%为物种特异性,远高于蛋白质编码基因的33%。最广谱分布的lncRNA同源组仅存在于81个物种,而蛋白质编码基因有170个同源组在所有115个物种中保守存在。尽管如此,研究人员仍通过合成性分析发现了21个具有位置保守性的lncRNA同源组,表明尽管序列快速演化,部分lncRNA在基因组中的位置保持稳定。
研究团队通过系统合成性分析,首次在昆虫中鉴定出4,806个衍生lncRNA。这些分子与其同源蛋白质编码基因的序列相似度平均仅为26.7%,且结构显著简化:外显子和内含子数量减少,转录本长度缩短。特别有趣的是,在从蛋白质编码基因向lncRNA转变的过程中,转座元件(特别是LINE元件)在编码区的重叠比例显著增加,提示转座元件可能在这一演化过程中发挥重要作用。
与普通lncRNA相比,衍生lncRNA展现出更复杂的调控特征:平均每个衍生lncRNA与20个邻近蛋白编码基因关联,具有更多miRNA结合位点(平均11.4个)和转录因子结合位点。表达分析显示,衍生lncRNA的表达水平显著高于普通lncRNA和蛋白质编码基因,且组织分布更广泛。共表达网络分析进一步揭示,衍生lncRNA与更多蛋白质编码基因存在协同表达关系。
研究人员分析了衍生lncRNA与100kb内邻近基因的共表达模式,发现尽管基因组距离与表达相关性较弱(R=0.22),但鉴定出13,424对显著共表达的lncRNA-mRNA组合。基因本体(GO)富集分析表明,这些共表达对显著富集于发育、代谢过程调控等生物学过程,其中21个术语与昆虫行为(如求偶、昼夜节律等)相关。
以鳞翅目昆虫特异衍生lncRNA Msex-lnc-001918为例,研究发现尽管其结构发生显著变化(第一外显子含有4个转座元件),但在睾丸中特异性高表达,且表达水平高于其同源蛋白编码基因。通过WGCNA构建的共表达模块显示,Msex-lnc-001918与其同源基因均参与精子发生相关的生物学过程,如纤毛组装、精子轴丝组装等,表明尽管经历结构演化,这些分子在功能上保持保守。
研究结论与讨论部分指出,这项工作不仅提供了昆虫lncRNA资源的宝库,更重要的是揭示了衍生lncRNA这一特殊类别的进化与功能特征。这些分子代表了一种重要的演化创新机制——蛋白质编码基因通过"伪基因化"过程转化为调控RNA,从而获得新功能。转座元件在这一转化过程中可能通过引入新的调控序列促进功能多样化。衍生lncRNA的高表达水平和广泛的组织分布提示它们可能作为"调控中枢"在昆虫生命活动中发挥关键作用。
这项研究的深远意义在于,它为在非模式昆虫中快速识别功能重要的lncRNA提供了进化依据——通过合成性分析鉴定衍生lncRNA,可能成为未来功能研究的重要切入点。随着更多昆虫基因组数据的积累,这种进化指导的功能预测策略将展现出更大价值,为理解昆虫多样性形成的分子基础提供新视角。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号