等位基因组学解码非编码RNA的顺式作用靶点与调控机制
《Nucleic Acids Research》:Allele-specific genomics decodes gene targets and mechanisms of the non-coding genome
【字体:
大
中
小
】
时间:2025年10月22日
来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对非编码RNA(ncRNA)靶标未知的难题,开发了Alleleome.LINK计算框架,通过等位基因特异性表达(ASE)相关性分析,在小鼠和人类组织中分别鉴定出397和2291个ncRNA-mRNA调控事件,并整合H3K27ac ChIP-seq和eQTL数据验证了77.47%的预测结果,为解读非编码基因组的功能图谱提供了新范式。
在基因组学的广阔天地中,蛋白质编码基因仅占人类基因组的1%,而剩余99%的非编码区域长期被视为"基因暗物质"。近年来研究发现,这些区域不仅包含重要的调控元件,更是疾病相关变异的热点区域——超过80%的疾病相关变异位于非编码区。其中,非编码RNA(ncRNA)作为关键调控分子,尤其在长链非编码RNA(lncRNA)领域,已发现超过6万个成员,但其靶基因和功能机制仍如迷雾般难以捉摸。
传统研究方法面临巨大挑战:ncRNA具有高度的组织特异性和个体表达异质性,使得需要大样本量的表达数量性状位点(eQTL)定位和共表达分析效果有限;而基于扰动的功能筛选又多局限于体外环境。更棘手的是,大多数ncRNA的靶标基因至今未知,这严重阻碍了我们理解复杂疾病的分子机制。
在这项发表于《Nucleic Acids Research》的研究中,德国慕尼黑工业大学的Tim P. Hasenbein等研究者独辟蹊径,从等位基因特异性表达(ASE)这一自然现象入手,开发了一套创新的研究策略。他们观察到等位基因特异性ncRNA在等位基因特异性蛋白编码基因(pcGene)附近显著富集,这一发现如同在基因组中发现了指路明灯——等位基因特异性信息或许能够用于预测ncRNA的顺式作用靶点。
研究团队将这一理念转化为Alleleome.LINK计算框架,通过对小鼠主要器官的分析,揭示了397个ncRNA-mRNA ASE事件,其中增强性调控与抑制性调控各具特征。更令人振奋的是,当这一策略应用于包含近千名个体的GTEx数据库时,研究人员发现了2291个人类ncRNA-mRNA ASE事件,与样本匹配的eQTL数据对比验证率高达77.47%。整合GWAS数据后,成功将位于信息性ncRNA上的变异与其pcGene靶标相联系。
关键技术方法包括:通过等位基因特异性RNA测序分析F1杂交小鼠六个主要器官的转录组;开发Alleleome.PRO2流程用于个体样本的等位基因特异性分析;建立Alleleome.LINK算法在用户定义的基因组窗口内连接顺式作用的ASE位点;整合H3K27ac ChIP-seq数据解析增强子-基因调控关系;利用GTEx v8数据库的等位基因特异性单倍型数据进行人类样本分析;通过精细映射的eQTL数据和GWAS目录变异进行验证与功能关联分析。
等位基因特异性ncRNAs显著富集于等位基因特异性pcGenes附近
研究者首先系统绘制了9周龄雌性F1杂交小鼠(BL6雌性×CAST雄性)的等位基因特异性转录组图谱,涵盖脑、心、肺、肝、肾和脾六个主要器官。分析发现平均8.98%的基因呈现ASE,其中ncRNA主要对应lncRNA(69.4%)。关键的是,等位基因特异性ncRNA在等位基因特异性pcGene附近(±100 kb内)显著富集,提示它们可能受到协同调控。这一发现为利用等位基因特异性信息预测ncRNA的顺式作用靶点提供了理论依据。
Allelome.LINK策略准确识别印记lncRNAs的靶标和机制
研究团队对原有Alleleome.PRO流程进行升级,开发了用户友好的Alleleome.PRO2版本,并进一步构建了Alleleome.LINK扩展工具。该工具能够在用户定义的基因组窗口内识别等位基因特异性位点,根据等位基因偏向性预测增强或抑制性顺式作用效应。通过对Xist lncRNA的分析,准确识别出其对X染色体基因的抑制性调控(87.41%),且未对已知逃逸基因Eif2s3x和Jpx错误分配抑制性关联。对Airn lncRNA的分析也显示,在野生型中正确识别其抑制性功能,而在敲除模型中无连接被检测到,验证了该策略的可靠性。
等位基因基因组学揭示小鼠器官中ncRNAs的靶标和机制
应用Alleleome.LINK分析小鼠等位基因特异性转录组数据,平均每个组织预测66.2个连接,共鉴定397个ncRNA-mRNA ASE事件。增强性连接(270个)显著多于抑制性连接,且大多数ncRNA仅有一个靶标。印记基因Airn-Igf2r相互作用在除脑外的所有组织中均被检测到,进一步验证了方法的有效性。有趣的是,增强性连接主要靶向附近基因(峰值在17 kb),提示可能通过共享启动子进行调控,而抑制性连接的目标距离分布均匀。
为探究ASE相关性源于ncRNA介导的机制还是增强子的独立调控,研究者整合了年龄和品系匹配的F1小鼠心脏H3K27ac ChIP-seq数据。分析发现17.02%的等位基因特异性增强子标记与附近基因相连,获得222个增强子-基因连接。进一步分析显示,72%的ncRNA-mRNA相关性事件附近未发现等位基因特异性增强子标记,提示ncRNA本身可能发挥调控作用。这一分析展示了Alleleome.LINK在连接DNA调控元件与其靶标方面的应用价值。
将分析策略扩展至GTEx数据库的等位基因特异性单倍型数据,涵盖54个人类组织、15253个样本。与小鼠研究一致,人类数据中也观察到等位基因特异性ncRNA在等位基因特异性pcGene附近的显著富集。平均每个个体在每个采样点揭示约一个连接,大多数连接(63.77%)为个体独有。组织特异性连接占43.96%,共享连接占56.04%。共鉴定2291个人类ncRNA-mRNA ASE事件,预测了17.75%的信息性ncRNA位点的顺式作用靶标。
通过与同一样本来源的精细映射eQTL数据(21412255个eQTL)重叠分析,平均77.47%的连接得到验证。进一步研究发现,平均78.2%的预测连接落在同一拓扑关联域(TAD)内,小鼠数据中也观察到类似趋势(81.7%),支持了顺式调控预测的生物学合理性。
研究者分析了在多个个体中复现的连接,发现真实调控关系应显示一致的ASE偏向性。对印记MEG3/DLK1位点的分析显示,79.43%的连接被正确识别为抑制性。应用一致性 cutoff(≥75%),识别出35.0%抑制性和48.1%增强性高置信度连接。例如FENDRR-FOXF1相互作用在55个成纤维细胞样本中显示一致性增强效应,与小鼠研究中的反馈环路发现相呼应。
GWAS整合将非编码风险变异分配给pcGene靶标
研究发现28.09%的连锁ncRNA和50.11%的连锁pcGene重叠至少一个非编码GWAS SNP,使研究者能够将性状相关变异分配给假定靶基因。这一分析为理解调控性ncRNAs及相关风险变异在疾病中的作用提供了宝贵见解。
本研究通过创新性地利用等位基因特异性表达信息,成功开发了能够解码非编码RNA靶标和调控机制的计算框架。Alleleome.LINK策略不仅在小鼠模型中验证了已知的印记调控关系,更在人类多样本数据中发现了大量新的ncRNA-mRNA调控事件。通过整合多组学数据(H3K27ac ChIP-seq、eQTL、GWAS),研究者不仅预测了调控关系,还深入探索了潜在机制,区分了ncRNA介导的调控与DNA元件共调控的情况。
该研究的重大意义在于突破了非编码RNA功能研究的瓶颈,为系统解析非编码基因组的调控网络提供了可行路径。随着更多个体测序数据和风险变异的积累,这种策略有望完全解码非编码基因组的顺式作用景观,为理解复杂疾病的遗传基础开辟新的道路。特别是能够将非编码疾病变异与其功能靶标相联系,为疾病机制研究和治疗靶点发现提供了宝贵资源。
未来,随着单细胞测序技术的发展和多组学整合分析的深入,这种基于等位基因特异性的研究策略有望在细胞类型特异性水平和动态调控过程中发挥更大作用,最终实现从非编码序列到生理功能、从遗传变异到疾病表型的完整解码。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号