
-
生物通官微
陪你抓住生命科技
跳动的脉搏
"全美人群基因组计划"队列的遗传祖先与群体结构解析:推动基因组健康公平的关键一步
【字体: 大 中 小 】 时间:2025年05月04日 来源:Nature Communications 14.7
编辑推荐:
本研究通过分析美国"All of Us"研究计划297,549名参与者的基因组数据,揭示其显著的群体结构和多样化的遗传祖先组成(欧洲66.4%、非洲19.5%、亚洲7.6%、美洲6.3%)。利用PCA和Rye算法,发现遗传混合程度与年龄呈负相关,并绘制了祖先成分的地理分布图谱。该研究为弥补基因组学研究中的欧洲中心偏差、促进精准医学公平性提供了重要数据支撑。
基因组学研究长期存在欧洲中心偏差,约80%的遗传数据来自欧洲血统人群,导致非欧人群在精准医学应用中存在健康差距。美国国立卫生研究院(NIH)发起的"All of Us"研究计划旨在通过建立包含多元祖先背景的百万级人群队列,破解这一困局。由Shivam Sharma等学者领衔的国际团队在《Nature Communications》发表重要成果,首次系统解析了该计划29.7万参与者的遗传多样性特征。
研究团队采用Illumina Global Diversity Array获取1,824,517个基因组位点数据,通过主成分分析(PCA)和统一流形逼近与投影(UMAP)进行无监督聚类,结合自主开发的Rye(Rapid Ancestry Estimation)算法进行祖先成分定量。参与者数据与1000基因组计划(1KGP)和人类基因组多样性计划(HGDP)的3433个全球参考样本进行整合分析。
无监督分析揭示显著群体结构
通过Hopkins统计量(≈1)和核密度估计证实参与者基因组数据呈现高度聚集性。密度聚类(HDBSCAN)在PCA空间识别出7个主要遗传相似群,UMAP分析进一步细分出13个亚群。这种"疏密相间"的分布模式反映出美国人群复杂的遗传分层现象。
大陆水平祖先成分定量
Rye分析显示参与者携带66.37%欧洲、19.51%非洲、6.33%美洲、2.57%东亚、3.05%南亚、1.95%西亚和0.21%大洋洲祖先成分。值得注意的是,研究者特别区分了"美洲原住民"(Indigenous American)与工作台分类中的"混合美洲人"(Admixed American),后者显示51.01%欧洲和35.84%美洲祖先的典型拉丁美洲混合模式。
次大陆水平精细解析
对高纯度祖先个体(>90%)的深入分析发现:非洲血统以西非(42.3%)和班图(31.4%)成分为主;东亚以汉族(58.1%)、日本(22.3%)和东南亚(19.6%)为主;南亚以南印度(67.8%)为主导;欧洲则主要包含不列颠(39.2%)、意大利(23.1%)和伊比利亚(18.7%)成分。敏感性测试表明,参考人群覆盖度可能影响7.7%的东班图成分估计准确性。
时空动态分布特征
地理可视化显示非洲祖先在东南部富集(如佐治亚州达38.7%),美洲成分集中于西南部(亚利桑那州21.4%),欧洲成分在北部边境州最高(缅因州89.2%)。更重要的发现是遗传混合熵(Admixture entropy)与年龄呈显著负相关(r=-0.34,p<0.001),表明美国年轻一代的遗传多样性正持续增强。
这项研究通过创新性地结合云计算平台(Researcher Workbench)和大规模基因组分析方法,首次绘制了美国人群遗传多样性的全景图谱。其价值不仅在于证实"All of Us"队列成功纳入了传统研究中被忽视的祖先群体,更重要的是建立了可扩展的分析框架(如Rye算法处理生物银行规模数据的能力)。作者特别强调,遗传相似性推断的结果高度依赖参考人群选择,当应用于医疗实践时需谨慎解读。随着队列规模扩大,这些发现将为理解复杂疾病的多祖先遗传架构、开发跨人群适用的多基因风险评分(PRS)奠定基础,最终实现"不让任何人掉队"的精准医学愿景。
生物通微信公众号
知名企业招聘