
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类基因组结构变异与多样性研究:65个近乎完整人类基因组的复杂遗传变异解析
【字体: 大 中 小 】 时间:2025年07月25日 来源:Nature 50
编辑推荐:
研究人员通过对65个多样性人类基因组进行长读长测序和单倍型组装,构建了130个高质量单倍型基因组,填补了92%的已知组装缺口,解析了1,852个复杂结构变异(SVs)和1,246个人类着丝粒。该研究显著提升了短读长数据的基因分型准确性,为疾病关联研究提供了重要资源,成果发表于《Nature》。
人类基因组计划完成二十余年后,科学家们逐渐意识到单个参考基因组无法涵盖人类群体的遗传多样性。复杂结构变异(SVs)、重复序列和着丝粒区域仍是基因组测序的"暗物质",这些区域的缺失严重阻碍了疾病关联研究和精准医学发展。尤其令人困扰的是,当前短读长测序技术难以准确检测50bp以上的SVs,而这类变异恰恰与多种遗传疾病密切相关。
华盛顿大学医学院基因组科学系(Department of Genome Sciences, University of Washington School of Medicine)的研究团队在《Nature》发表重要成果。研究人员选取代表五大洲28个人群的65个多样性样本(主要来自1000 Genomes Project),采用PacBio HiFi和Oxford Nanopore超长读长测序技术,结合Hi-C和Strand-seq数据,通过Verkko和hifiasm双组装策略,构建了130个单倍型基因组。这些组装的连续性中位数达137Mb,质量值(QV)54-57,填补了92%的已知组装缺口,39%的染色体达到端粒到端粒(T2T)组装水平。
关键技术包括:(1)多平台长读长测序(PacBio HiFi平均47×,ONT超长读长36×);(2)基于Strand-seq的Graphasing单倍型分型;(3)Minigraph-Cactus构建泛基因组图谱;(4)PanGenie短读长基因分型算法;(5)整合光学图谱和表观遗传分析验证着丝粒结构。样本来源于1000 Genomes Project的淋巴母细胞系,涵盖非洲(30例)、美洲(9例)、欧洲(8例)、东亚(10例)和南亚(8例)人群。
主要研究结果
复杂基因座的完整解析
研究首次完整组装了MHC区域,发现826个HLA等位基因的新变异,包括HLA-DPA2的功能丧失变异。通过分析RCCX模块(包含C4A/C4B、CYP21A2等基因),发现74.6%单倍型为双模块结构,并鉴定出7个C4氨基酸新变异。在SMN1/SMN2区域(与脊髓性肌萎缩症相关),101个单倍型分析显示48%携带两个SMN拷贝,发现3个仅含SMN2的潜在风险单倍型。
着丝粒变异图谱
1,246个完整组装的着丝粒揭示:α-卫星高阶重复(HOR)阵列长度差异达30倍(如10号染色体),7%着丝粒存在双动粒结构(两个低甲基化区域)。在2号染色体着丝粒发现80%单倍型携带L1HS/Alu转座子插入,这些插入多位于动粒外围,可能影响染色质边界。
结构变异与疾病关联
相比GRCh38参考基因组,新发现59%的SVs(共188,500个),其中8.2%为转座子插入(MEIs)。82.3%全长L1插入保留两个完整开放阅读框(ORFs),具有潜在转座活性。1,535个SVs破坏985个基因编码区,包括37个功能缺失不耐受基因(LOEUF<0.35)。通过GWAS分析发现3,818个SVs与疾病相关SNPs存在强连锁不平衡。
泛基因组应用价值
结合HPRC数据构建的泛基因组参考,使短读长基因分型的中位质量值提升至45(1Mb窗口),罕见变异(<1%频率)检出率提高2-4倍。Locityper对HLA基因分型的准确率达97.1%,为复杂疾病研究提供新工具。
这项研究标志着人类基因组学进入"完整单倍型时代"。近乎完美的基因组组装填补了医学相关基因座的空白,为群体遗传学和疾病研究奠定基础。特别值得注意的是,非洲人群基因组平均比非非洲人群多468个旁系同源基因,凸显了多样性样本的价值。着丝粒结构和转座子插入的发现为染色体不稳定性和进化研究开辟新途径。该资源已公开于IGSR数据库,将推动从SNP到SVs的多尺度遗传分析范式转变。正如Eichler团队强调,这些发现"使疾病关联研究能够全面覆盖结构变异",为精准医学带来新的可能性。
生物通微信公众号
知名企业招聘