
-
生物通官微
陪你抓住生命科技
跳动的脉搏
沙特阿拉伯与日本人群特异性泛基因组参考图谱JaSaPaGe的构建及其在精准医学中的应用
【字体: 大 中 小 】 时间:2025年08月13日 来源:Scientific Data 6.9
编辑推荐:
本研究针对阿拉伯和日本人群在人类泛基因组参考中代表性不足的问题,开发了首个沙特-日本联合泛基因组图谱JaSaPaGe。研究人员通过整合PacBio HiFi长读长、Nanopore超长读长和Hi-C短读长数据,构建了包含9名沙特和10名日本个体的高质量单倍型组装,证明该图谱在变异检测中优于线性参考基因组(GRCh38/T2T-CHM13),并与人类泛基因组参考联盟(HPRC)图谱性能相当,为中东和东亚人群的基因组学研究提供了重要资源。
在人类基因组学研究领域,参考序列的选择一直是影响下游分析准确性的关键因素。尽管人类泛基因组参考联盟(HPRC)已发布包含47个多样化个体的泛基因组图谱,但占全球人口近8%的阿拉伯和日本人群仍未被充分代表。这种代表性缺失可能导致这些人群特有的遗传变异被忽视,尤其在临床基因组学应用中,可能影响疾病相关变异的准确识别。
为填补这一空白,来自沙特阿卜杜拉国王科技大学(King Abdullah University of Science and Technology, KAUST)和日本国立全球健康与医学研究中心的研究团队开展了开创性工作。他们聚焦于两个具有显著遗传差异的亚洲群体——沙特阿拉伯和日本人群,利用多组学技术构建了首个针对这两个人群的泛基因组参考图谱JaSaPaGe。这项发表在《Scientific Data》的研究,不仅提供了更全面的遗传变异图谱,还为理解亚洲人群的基因组多样性设立了新标准。
研究团队采用三项核心技术:首先,使用PacBio HiFi长读长和Nanopore超长读长测序结合Hi-C染色质构象捕获技术,对19个样本(9沙特+10日本)进行单倍型分型组装;其次,通过Minigraph-Cactus流程构建包含结构变异(SV)的泛基因组图;最后,建立基于VG Giraffe和DeepVariant的短读长变异检测流程,系统评估图谱性能。样本来源于沙特五大地理区域和东京都市圈的志愿者,所有数据遵循FAIR原则公开。
基因组组装与质量评估
研究生成的单倍型组装显示出优异的质量指标:contig N50中位数达80.9 Mb,QV评分中位数65.3,仅10.7%的多拷贝基因缺失。通过Flagger评估发现,98%的组装中单倍型错误率低于1%。特别值得注意的是,日本样本组装的基因完整性显著更高(p=0.048),这为后续分析提供了可靠基础。
泛基因组构建与变异分析
JaSaPaGe图谱整合了19个单倍型组装和两个参考基因组(GRCh38/T2T-CHM13),共包含11,395,931个SNP和2,549,282个插入缺失变异(indel),其变异检出数量显著超过单个种群图谱(沙特图谱9,475,991 SNP;日本图谱8,218,652 SNP)。在CYP2D6药物代谢基因的分析中,该图谱成功识别出32个单拷贝(CN1)、3个双拷贝(CN2)和多个缺失(CN0)单倍型,通过Illumina读长深度分析验证了这些结构变异的准确性。
临床应用验证
使用HG001标准样本和6个种群样本(3沙特+3日本)的测试显示:相比GRCh38,JaSaPaGe将SNP检测的F1分数从0.996913提升至0.997811,indel召回率从99.18%提高至99.29%。尤其值得注意的是,对于沙特样本,种群特异性图谱比HPRC图谱多检出1,448个变异,证实了种群特异性参考的价值。
这项研究的意义在于:其一,首次系统性地填补了中东和东亚主要人群在泛基因组参考中的空白;其二,证实即使是小规模(n≈10)但高质量的单倍型组装,也能显著提升变异检测灵敏度;其三,建立的伦理审查和数据共享模式(如KFMC IRB 22-037协议)为其他地区开展类似研究提供了范本。正如作者Malak S. Abedalthagafi和Robert Hoehndorf强调的,JaSaPaGe不仅可作为研究工具,更将为沙特和日本人群的精准医学实践提供不可或缺的参考框架,特别是在药物基因组学(如CYP2D6代谢型分析)和罕见病诊断领域。未来,随着更多多样化样本的纳入,这类种群特异性泛基因组有望成为全球基因组学研究的新标准。
生物通微信公众号
知名企业招聘