
-
生物通官微
陪你抓住生命科技
跳动的脉搏
阿联酋阿拉伯泛基因组参考图谱的构建揭示中东人群独特遗传变异
【字体: 大 中 小 】 时间:2025年07月25日 来源:Nature Communications 14.7
编辑推荐:
本研究针对阿拉伯人群在基因组研究中的代表性不足问题,构建了首个基于阿联酋阿拉伯人群的泛基因组参考图谱(UPR)。团队整合PacBio HiFi(35.27X)、ONT ultralong(54.22X)和Hi-C(65.46X)测序数据,完成53例阿拉伯个体的高质量单倍型分相组装,发现1.12亿碱基未表征序列及23.5万群体特异性结构变异(SV),包括TAF11L5基因的普遍重复。该研究填补了中东人群基因组资源的空白,为精准医学和遗传病研究提供重要工具。
人类基因组研究长期存在"欧洲中心主义"偏差,中东地区近5亿阿拉伯人口的遗传特征长期缺乏系统性研究。由于阿拉伯人群具有高近亲婚配率,隐性遗传病发病率显著升高,但现有参考基因组(如GRCh38)无法有效识别该群体特有的致病变异。更棘手的是,传统短读长测序技术难以解析复杂重复区域,而阿拉伯基因组中富含着丝粒卫星序列和微卫星结构,这为精准医学研究设置了双重障碍。
为解决这一难题,Mohammed Bin Rashid University of Medicine and Health Sciences(MBRU)的研究团队在《Nature Communications》发表了突破性成果。他们首次构建了阿联酋阿拉伯泛基因组参考图谱(UAE-based Arab Pangenome Reference, UPR),通过整合多组学技术揭示了阿拉伯人群特有的基因组特征。研究团队从8个阿拉伯国家招募53名健康个体(包括1个核心家系),采用PacBio HiFi、Oxford Nanopore ultralong和Hi-C三种测序技术,获得平均N50达124.28 Mb的高质量单倍型分相组装。
关键技术包括:(1)混合测序策略:结合HiFi长读长(35.27X)和ultralong reads(>100kb占比12.53X)提升复杂区域覆盖度;(2)Minigraph-Cactus构建泛基因组图;(3)Liftoff基因注释识别重复基因;(4)Panacus分析非参考序列增长曲线。样本来源于阿联酋常住阿拉伯人群,涵盖沙特、埃及等8国血统。
健康阿拉伯样本队列
研究严格筛选53名无慢性病史的阿拉伯成人(18-60岁),通过PCA和ADMIXTURE分析确认其遗传多样性覆盖中东主要亚群。
测序质量与变异统计
ONT ultralong reads在近端着丝粒染色体实现99.49%覆盖,显著优于PacBio(95.60%)。每个样本平均检出522万小变异(含140万新SNV)和3.3万SV(1.5万为新发现)。
群体结构分析
线粒体单倍型分析显示UPR样本与阿拉伯参考群体高度一致,Y染色体单倍群分布符合中东地区特征。
组装质量评估
相比GRCh38(N50 57.88 Mb),UPR组装连续性提升3.11倍。Flagger分析显示仅1.28%区域存在潜在错误,Y染色体因异染色质复杂性覆盖度最低。
基因重复特征
发现883个阿拉伯特有重复基因,其中15.06%与隐性遗传病相关。TAF11L5(RNA聚合酶II启动子结合蛋白)在所有样本中均出现重复,USP17L家族基因重复频率显著高于HPRC和CPC。
泛基因组图构建
新增111.96 Mb非参考序列(22.8%位于微卫星区),包含23.5万HPRC/CPC未收录的SV。在PRAMEF癌症/睾丸抗原区域发现13.2%阿拉伯特有单倍型。
线粒体泛基因组
鉴定1436 bp未报道序列,发现652 bp的MT-TF/MT-RNR1重复结构变异,建立首个阿拉伯线粒体参考图谱。
应用性能验证
使用UPR图谱可使短读长映射率提升5.04%,自闭症家系外显子测序的错义变异召回率达93.29%。
这项研究开创性地绘制了阿拉伯人群基因组多样性全景图,其价值体现在三方面:首先,UPR填补了全球基因组计划的中东空白,修正了现有参考基因组在阿拉伯人群中的检测偏差;其次,发现的TAF11L5等基因重复为研究当地高发疾病的分子机制提供新线索;最后,建立的混合测序策略为其他 underrepresented populations 的基因组研究提供范本。值得注意的是,研究中发现的23.5万群体特异性SV中,相当比例位于临床相关基因区域,这将显著提升阿拉伯人群遗传病诊断率。未来需扩大样本量以捕获更多稀有变异,并进一步探索TAF11L5重复的转录调控功能。该成果标志着精准医学向"全球平等"迈出关键一步。
生物通微信公众号
知名企业招聘