群体多样性长读长转录组揭示人类基因注释存在祖源偏见

《Nature Communications》:Long-read transcriptomics of a diverse human cohort reveals ancestry bias in gene annotation

【字体: 时间:2025年12月04日 来源:Nature Communications 15.7

编辑推荐:

  本期推荐一项发表于《Nature Communications》的重要研究。为解决当前人类基因注释严重依赖欧洲祖源样本、导致全球转录组多样性表征不足的问题,研究团队对43个来自8个不同人群的淋巴母细胞系进行长读长RNA测序(lrRNA-seq),构建了跨祖源基因注释集PODER。结果显示,非欧洲人群的特有转录本在现有注释中代表性严重不足,且使用个人基因组组装可提升新转录本发现效率。该研究强调了构建包容性基因注释框架对推进精准医学和疾病机制研究的重要性。

  
在基因组学飞速发展的今天,准确的人类基因注释是解读遗传变异、理解细胞功能及疾病机制的基础。然而,当前广泛使用的人类参考基因注释(如GENCODE和RefSeq)主要基于欧洲祖源个体的转录组数据构建,这导致全球其他人群特有的转录本在注释中严重缺失。随着长读长RNA测序(long-read RNA sequencing, lrRNA-seq)技术的成熟,科研人员能够完整解析转录本结构,但此前大规模lrRNA-seq研究仍集中于欧洲样本,加剧了注释的祖源偏见。这种偏见可能影响非欧洲人群疾病相关遗传变异的识别与机制解析,阻碍精准医学的公平推进。
为系统评估并解决这一问题,由Pau Clavell-Revelles、Fairlie Reese等领衔的研究团队在《Nature Communications》上发表了最新成果。该研究对43个来自非洲、亚洲、美洲和欧洲8个遗传多样性人群的淋巴母细胞系(lymphoblastoid cell lines, LCLs)进行了高通量lrRNA-seq,累计产生超8亿条全长读数。通过整合四种转录本发现工具(FLAIR、IsoQuant、ESPRESSO和LyRic),构建了跨祖源基因注释集PODER(POPulation Diversity-Enhanced long-Read annotation),并利用群体特异性表达分析、等位基因特异性转录本使用(allele-specific transcript usage, ASTU)检测、个人基因组映射等技术,全面评估了当前注释的偏见程度及改进策略。
关键实验方法概述
研究采用CapTrap建库技术富集全长RNA,通过牛津纳米孔技术(Oxford Nanopore Technologies)进行lrRNA-seq。数据分析阶段,联合使用注释依赖型(FLAIR、IsoQuant、ESPRESSO)和注释无关型(LyRic)工具发现转录本,并通过严格过滤(如最小样本重复性、工具间再现性)得到高置信度转录本集。利用1000 Genomes Project(1000G)基因型数据构建个性化GRCh38基因组,评估单核苷酸多态性(SNP)对转录本发现的影响;同时整合人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)的六个人基因组组装,比较其与线性参考基因组(GRCh38、T2T)的转录本映射效率。
群体多样性注释揭示大量新型转录本
通过lrRNA-seq数据构建的PODER注释包含155,875个高置信度转录本,其中41,297个为新型转录本(占26.5%),包括10,785个新型内部外显子及476个新型基因。
与GTEx、ENCODE等大型转录组计划相比,PODER独有31,097个新型转录本(75.3%),凸显其发现新转录本的能力。新型转录本多源于长链非编码RNA(long non-coding RNA, lncRNA)和蛋白编码基因,且新型外显子区域的群体间遗传分化指数(FST)更高,提示等位基因频率差异可能影响外显子注释状态。
当前基因注释对非欧洲群体转录本表征不足
研究发现,非欧洲样本中新型转录本发现数量显著高于欧洲样本(p < 0.05),且群体特异性转录本(即在单一群体中至少两个样本独有的转录本)在非欧洲群体中更富集于新型类别(如新型剪接连接点)。
通过Tau特异性指数分析,群体特异性发现的转录本在表达层面也呈现高群体特异性(τ ≥ 0.8),且该趋势在独立短读长数据集(MAGE队列)中得以验证。
跨祖源注释提升等位基因特异性转录本使用检测灵敏度
在等位基因特异性分析中,使用PODER或增强版GENCODE(GENCODE + PODER新型转录本)可显著增加ASTU检测基因数量,尤其在非欧洲样本中提升更明显(欧洲群体均值提升1.15倍,非欧洲群体1.24倍)。
ASTU显著基因富集于系统性红斑狼疮、类风湿关节炎等自身免疫疾病及胆固醇代谢相关GWAS性状,为非欧洲人群疾病易感性差异提供了机制线索。
个人基因组组装优化转录本发现
使用样本特异性单倍型个性化GRCh38基因组可平均多发现607个新型转录本(提升3.6%),其中44.4%的新型剪接连接点未被GRCh38发现的原因可归咎于剪接位点或临近区域的SNP。
虽然个人基因组中约5%区域为GRCh38未包含的非参考区,但这些区域转录活性低(基因密度<2转录本/Mb),且多位于重复序列区,提示其主要转录变异仍存在于共享基因组区域。
结论与展望
本研究通过构建群体多样性lrRNA-seq资源,首次系统性揭示了人类基因注释存在的欧洲中心偏见,并证明这种偏见会削弱非欧洲群体中遗传效应(如ASTU)的检测能力。利用个人基因组组装或泛基因组图可部分缓解该问题,但需开发适配lrRNA-seq的图基因组工具以全面捕捉转录组多样性。研究强调,扩大非欧洲人群在多组织、多发育阶段的转录组数据覆盖,是构建真正代表全人类转录多样性的“人类全转录组”(pantranscriptome)的关键步骤,将为疾病机制研究和精准医学的公平发展奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号