编辑推荐:
为解决现有局部祖先推断(LAI)方法精度和分辨率受限问题,研究人员开发 Orchestra 模型,基于 35 个全球种群超 1 万例样本训练。其在拉美人群遗传史、阿什肯纳兹犹太人起源等研究中表现优异,还识别出与维京征服相关的免疫基因区域,推动 LAI 领域发展。
在人类迁徙与融合日益频繁的当下,基因组研究却面临一个棘手难题:全球大量人群具有混合祖先背景,而传统的全局祖先推断(GAI)只能给出整体混合比例,无法解析基因组局部区域的祖先来源精细模式。这就像只拿到一幅模糊的世界地图,却看不清每个国家的边界与地形。对于非洲、亚洲等遗传多样性丰富的地区,现有局部祖先推断(LAI)方法在处理地理邻近种群时,因无法捕捉细微遗传差异,导致在疾病关联分析、药物敏感性研究等领域的应用受限。例如,非洲人群中与疾病相关的等位基因频率差异显著,亚洲人群的遗传疾病负担和药物反应也因亚种群不同而各异,若不能精细区分祖先来源,可能导致基因组研究结果偏差,加剧健康不平等。
为突破这一困境,美国 Omics Edge 公司的研究人员开展了一项前沿研究,相关成果发表在《Nature Communications》。他们开发了高分辨率 LAI 模型 Orchestra(最优单倍型重组组合以从参考祖先建立目标分割),通过整合 35 个全球种群的 10,169 例非混合个体基因组数据,构建了高精度参考面板,并结合重组距离计算与深度学习平滑模块,实现了对基因组局部祖先的精细解析。
研究中采用的关键技术方法包括:一是构建包含 1KGP-16pops(1000 基因组计划的 16 个种群)和 custom-35pops(自定义的 35 个种群)的参考面板,通过主成分分析(PCA)、均匀流形近似与投影(UMAP)、t 分布随机邻域嵌入(t-SNE)等降维技术筛选纯净样本;二是利用 SLiM 软件模拟多代混合基因组,生成不同混合代数的测试数据;三是通过卷积神经网络(CNN)和注意力机制(Transformer)组成的平滑模块,优化局部祖先推断的准确性。
局部祖先解卷积:Orchestra 的性能突破
Orchestra 的两阶段流程(基础层和平滑层)在基准测试中表现卓越。基础层通过计算目标基因组与参考种群的重组距离(即从参考种群序列重建目标序列所需的最小片段数),实现初步分类;平滑层则利用深度学习整合邻近窗口信息,提升精度。在 1KGP-16pops 和 custom-35pops 数据集上,Orchestra 的平均召回率和准确率分别达 90.17%、90.22% 和 79.54%、80.54%,显著优于 RFmix、FLARE、Gnomix 等传统方法。即使在混合 6 代的高度混合样本中,其性能仍超越其他方法在非混合样本中的表现,尤其在区分欧洲内部如法国与德国、意大利与西班牙等近缘种群时优势明显。
追溯遗传历史:拉丁美洲与阿什肯纳兹犹太人的基因组密码
以拉丁美洲人群为典型案例,研究人员通过模拟 12 代混合的基因组,结合 1KGP 和英国生物银行(UKBB)真实数据,揭示了该地区复杂的遗传结构。Orchestra 检测到安第斯山脉地区(如玻利维亚、秘鲁)的美洲原住民祖先(NAM)比例最高,加勒比地区以西非(NGE、GLS)和欧洲祖先为主,巴西则显示班图人起源的中南非(SAF)祖先特征。此外,模型还捕捉到圭亚那的印度裔、阿根廷的阿什肯纳兹犹太裔(ASK)、巴西的日裔等微量祖先信号,与历史移民记录高度吻合。例如,巴西的非洲祖先片段长度较短,反映了跨大西洋奴隶贸易的时间线;阿根廷的 ASK 祖先片段则与 20 世纪大规模犹太移民事件一致。
针对争议已久的阿什肯纳兹犹太人起源问题,Orchestra 发现其基因组中 68% 为南欧(意大利,ITA)祖先,16.6% 为黎凡特(LEV)祖先,7.2% 为中东(ICT)祖先,支持其与意大利半岛的紧密遗传联系,为相关历史争论提供了基因组证据。
自然选择信号检测:维京征服的免疫基因遗产
在英国生物银行的 415,859 例样本分析中,Orchestra 揭示了斯堪的纳维亚(SCA)祖先在英格兰东部和东米德兰兹地区的富集,与维京定居点(以 - by、-thorpe 等后缀命名的地名)分布高度重叠。进一步通过 Fadm和局部祖先差异(LAD)分析,在 10 号染色体 10q11.21-22 区域发现显著选择信号,该区域富集 MAPK8、WASHC2C、MARCH8 等免疫相关基因,与天花、流感、肺炎等感染性疾病应答相关。携带 SCA 祖先该区域的个体,红细胞和血红蛋白水平较高,且自我报告的呼吸道感染和流感伴肺炎发生率较低,提示维京祖先引入的免疫基因可能赋予后代对中世纪流行疾病的抗性。
研究结论与意义
Orchestra 的问世标志着局部祖先推断领域的重大飞跃,其通过提升分辨率至大陆内部尺度,首次实现了对近缘种群混合历史的精细解析。该模型不仅为重构人类迁徙路线、解析复杂疾病的遗传基础提供了强大工具,还为全球基因组研究的公平性和可移植性奠定了基础 —— 尤其在非洲、亚洲等传统上被忽视的遗传多样性热点地区,精准的 LAI 将助力开发更具包容性的疾病预测模型和个性化医疗方案。尽管存在计算资源需求高、窗口划分影响远古信号检测等局限,但其在追溯历史事件(如维京征服的遗传印记)和揭示适应性进化(如免疫基因选择)中的突破性应用,已展现出巨大的科学与临床价值。随着参考面板的持续优化和计算方法的改进,Orchestra 有望推动人类遗传学研究迈向更精细、更包容的新维度。