整合全基因组与转录组测序解析异构体变异的遗传结构及其在复杂性状中的作用
《Nature Communications》:Integrating whole genome and transcriptome sequencing to characterize the genetic architecture of isoform variation
【字体:
大
中
小
】
时间:2025年11月23日
来源:Nature Communications 15.7
编辑推荐:
本研究通过整合全基因组和转录组测序数据,系统绘制了人类全血中isoform比例数量性状位点(irQTL)图谱。研究人员在Framingham心脏研究队列中发现超过110万个顺式irQTL,其中20%与基因整体表达无关,显著富集于剪接位点和全基因组关联研究(GWAS)位点。研究揭示了irQTL通过调控特异性转录本比例影响复杂性状的分子机制,为理解遗传变异通过转录本特异性调控影响疾病风险的机制提供了新见解。
在人类基因组中,虽然蛋白质编码基因数量仅有约2万个,但通过选择性剪接、可变转录起始位点和可变多聚腺苷酸化等机制,能够产生远超基因数量的转录本异构体。这种转录本水平的变异极大地丰富了蛋白质组的多样性,也成为基因表达调控的重要层面。研究表明,超过95%的多外显子基因都会发生选择性剪接,这种动态过程受到遗传变异的精细调控。然而,我们对遗传变异如何特异性影响转录本异构体比例,以及这种调控如何贡献于复杂疾病风险的了解仍然有限。
近年来,随着测序技术的快速发展,研究人员开始系统探索遗传变异对转录组的影响。表达数量性状位点(eQTL)研究揭示了遗传变异与基因整体表达水平的关联,而选择性剪接数量性状位点(sQTL)研究则关注外显子水平或剪接连接点的变异。然而,这些方法在全面捕捉转录本水平调控方面存在局限。基于转录本比例的irQTL分析应运而生,它能够直接反映特定转录本异构体的相对丰度变化,为理解遗传变异如何通过调控特异性转录本影响表型提供了新的视角。
为此,由Chunyu Liu、Roby Joehanes等研究人员领导的研究团队在《Nature Communications》上发表了最新研究成果。他们整合了全基因组测序(WGS)和RNA测序(RNA-seq)数据,系统绘制了人类全血中isoform比例数量性状位点(irQTL)图谱,揭示了遗传变异对转录本特异性表达的调控网络,并深入探讨了这种调控在复杂性状和疾病中的作用机制。
研究人员主要利用了全基因组测序、RNA测序、irQTL分析、孟德尔随机化等多种技术方法,样本来源于Framingham心脏研究(FHS)队列的2,622名发现样本和1,094名内部验证样本,以及Women's Health Initiative(WHI)和Jackson Heart Study(JHS)两个外部验证队列。
研究团队在FHS发现样本中分析了1,288万个单核苷酸多态性(SNP)和来自10,150个基因的25,642个转录本的异构体比例。他们鉴定出超过110万个常见顺式irQTL(次要等位基因频率[MAF]≥0.01),这些位点与10,883个异构体转录本显著相关,涉及4,971个基因。其中,rs4841被确定为最显著的前哨顺式irQTL,与RPS14基因的ENST00000519690.1异构体比例正相关,在发现样本中解释了96%的变异。通过整合GENCODE、SpliceAI、SNPEff和Homer等多个数据库的注释,发现279个变异与剪接相关,其中82个变异具有较高的SpliceAI预测分数(>0.5),表明这些变异可能直接影响剪接过程。
研究人员还鉴定了超过13万个反式irQTL(P<1.5×10-13),这些位点与590个基因的1,084个异构体相关。值得注意的是,31%的反式irQTL-异构体对涉及6号染色体上的基因转录本,其中超过一半位于HLA区域。最显著的反式irQTL是rs1458255,它与位于15号染色体的RPL9P9(核糖体蛋白L9假基因9)的异构体比例相关,解释了54%的变异。
在内部验证中,76.7%的发现信号在额外的1,094名FHS样本中成功重复;在WHI外部验证中,重复率为72.4%。验证率随着irQTL解释的变异比例(R2)增加而升高,表明效应越强的关联越稳健。相比之下,JHS中的验证率较低(32.4%),这可能反映了RNA来源(全血与外周血单核细胞)的差异对研究结果的影响。
研究人员比较了irQTL和eQTL的功能相关性。约80%具有irQTL的基因也拥有eQTL,表明剪接调控和基因表达调控存在显著重叠。然而,在剩余20%的基因中,异构体使用比例的变化独立于总表达水平,提示选择性转录本使用可以在不影响整体基因表达的情况下发挥关键调控作用。功能注释显示,与eQTL相比,irQTL在剪接供体位点、剪接受体位点和RNA结合蛋白结合位点显著富集,突出了它们在剪接调控中的特异性作用。
常见顺式irQTL变异在GWAS目录变异中显著富集,与数百种性状相关,如血液蛋白测量、BMI调整的腰臀比和高密度脂蛋白胆固醇水平。这些发现与之前的顺式eQTL富集分析一致,反映了顺式irQTL和顺式eQTL之间存在相当比例的重叠。
rs10774671 G>A变异是整个分析中第二显著的前哨顺式irQTL,与12q24.13上OAS1基因的ENST00000202917.10(OAS1-201)转录本比例相关。rs10774671-A等位基因破坏了5号内含子剪接受体位点的保守二核苷酸"AG",将其变为"AA"。这导致OAS1-201的异构体比例降低(R2=0.95),而其他异构体如OAS1-203的比例升高。孟德尔随机化分析支持OAS1-201异构体比例降低与较低白细胞计数的因果关系,为理解该变异在COVID-19严重程度中的作用提供了机制解释。
ULK3基因(15q21.1)编码一种丝氨酸/苏氨酸蛋白激酶。rs12898397(T>C)位于14号外显子,与ULK3-201(全长472个氨基酸蛋白)的异构体比例负相关,而与ULK3-220(缺失"VK"二氨基酸的截短蛋白)的比例正相关。孟德尔随机化分析发现,ULK3-201表达比例降低与舒张压降低存在因果关系。机制上,rs12898397-G等位基因削弱了经典5'GT供体位点,同时加强了外显子内的一个替代GT位点,促进了6个核苷酸的跳跃和两个氨基酸("VK")的缺失。
CNN2(钙调蛋白2)基因编码一种调节细胞骨架动力学的蛋白。rs930232(G>A)和rs5014188(T>C)分别与CNN2的不同异构体相关。rs930232-A等位基因与CNN2-201异构体比例负相关,与CNN2-202比例正相关,并与较高的中性粒细胞计数相关。孟德尔随机化支持CNN2-201异构体比例与中性粒细胞计数的负向因果关系。
该研究通过大规模整合基因组和转录组数据,构建了全面的irQTL图谱,揭示了遗传变异通过调控特异性转录本比例影响复杂性状的分子机制。与传统的eQTL分析相比,irQTL分析能够识别出独立于总基因表达的转录本特异性调控事件,为理解GWAS信号的功能机制提供了新的视角。
研究发现了大量与剪接调控相关的遗传变异,其中20%的irQTL与基因整体表达无显著关联,突出了异构体水平调控的独特性。通过孟德尔随机化分析,研究还确立了特定异构体比例变化与心血管疾病风险因素之间的因果关系,为从转录本水平理解疾病机制提供了新证据。
该研究的局限性包括对罕见irQTL的检测能力有限,以及不同组织和细胞类型中irQTL的特异性有待进一步探索。未来研究需要更大规模和更多样化的队列,以及系统性的功能验证,来全面揭示irQTL在人类复杂性状和疾病中的贡献。
总之,这项研究不仅提供了宝贵的irQTL资源,还展示了整合多组学数据在解析复杂性状遗传基础方面的强大能力。随着测序技术的不断进步和数据分析方法的完善,转录本水平的遗传调控研究将为精准医学的发展提供重要支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号