SAI:一个用于适应性基因渗入统计分析的Python工具包及其在人类和黑猩猩进化研究中的应用

《Molecular Biology and Evolution》:SAI: A Python Package for Statistics for Adaptive Introgression

【字体: 时间:2025年11月20日 来源:Molecular Biology and Evolution 5.3

编辑推荐:

  本研究针对适应性基因渗入(adaptive introgression)研究中缺乏易用统计工具的问题,开发了SAI Python包,实现了U、Q、D+、Danc等统计量并引入新统计量DD

  
在进化生物学研究中,适应性基因渗入(adaptive introgression)是指遗传物质通过基因流在远缘谱系间转移,并提高受体谱系适应性的重要进化过程。准确识别基因组中经历适应性渗入的区域,对理解物种适应性进化机制至关重要。然而,该研究领域长期面临方法学挑战:一方面,早期研究多采用"先分别检测自然选择和基因渗入,再取交集"的临时策略,缺乏专门针对适应性渗入的统计量;另一方面,尽管Racimo等人于2017年提出了U统计量(独特共享位点数)和Q统计量(衍生等位基因频率分位数)等专用指标,以及D+、Danc等基于中性渗入场景开发的统计量,但这些方法大多缺乏公开、易用的软件实现,严重依赖针对特定数据集的自定义脚本,限制了其在更广泛基因组数据(包括未分型和多倍体基因组)中的应用。此外,现有统计量在弱选择压力下的检测性能、祖先等位基因指定歧义导致的結果不一致等问题,也亟待系统解决。
为应对这些挑战,维也纳大学的研究团队开发了SAI(Statistics for Adaptive Introgression)Python软件包(版本1.1.0),并在《Molecular Biology and Evolution》上发表了相关研究成果。该工具不仅整合了现有主流统计量,还引入了新统计量DD(序列差异平均值)以替代可能出现零分母问题的RD统计量,为适应性基因渗入研究提供了标准化分析框架。
关键技术方法主要包括:基于Python开发的统计量计算算法(U、Q、D+、Danc、fd、df及新统计量DD),支持极化(基于祖先等位基因)与非极化数据分析;利用1000人基因组计划第三阶段数据(1000 Genomes Project Phase 3)、阿尔泰尼安德特人基因组和丹尼索瓦人基因组作为源群体;采用ANNOVAR(版本2022Oct05)进行候选区域功能注释;使用精密猿类基因组数据集分析倭黑猩猩向中部黑猩猩的基因渗入;通过Snakemake工作流确保分析可重复性。
研究结果主要体现在以下几个方面:
性能评估显示统计量在不同选择强度下的差异
通过模拟数据分析发现,当选择强度较大(s=0.01或0.1)时,所有统计量均能有效区分非渗入/中性渗入与适应性渗入区域,与Racimo等人此前对fd、U、Q统计量的评估一致。然而在弱选择(s=0.001)情况下,这些统计量区分能力有限,其中Q95统计量表现最佳,受试者工作特征曲线下面积最大。考虑到实际基因组中适应性渗入多为罕见事件,研究进一步采用更适用于不平衡数据的精确率-召回率曲线进行评估,发现强选择下df、fd和Q95表现最优,而弱选择下所有统计量检测能力均受限。祖先等位基因错误指定会影响U统计量性能,但D+和DD统计量受影响较小。
在人类基因组中验证SAI并发现新候选区域
应用SAI分析1000人基因组数据,以尼安德特人和丹尼索瓦人为供体群体。聚焦允许多源渗入分析的U50和Q95统计量,通过重叠异常值识别候选区域。成功复现了包括BNC2(与人类肤色相关且可能在现代欧洲人中受自然选择)在内的已知候选区域,同时发现了染色体20上的新区域(后经监督深度学习验证)。但未复现Racimo等人报告的chr17:18880001-18920000(hg19坐标)丹尼索瓦人特异性渗入区域。通过BCFtools验证确认SAI计算的等位基因计数准确,但即使调整祖先状态定义方法,结果仍与原始研究存在差异,突显了方法细节透明化的重要性。
在黑猩猩中揭示跨谱系适应性渗入的有趣案例
分析倭黑猩猩向中部黑猩猩的渗入,以西部黑猩猩为参考群体。在极化数据中应用所有统计量,非极化数据中仅应用DD、U和Q统计量。Q统计量识别出大量候选基因,可能反映中部黑猩猩与倭黑猩猩间存在大量共享变异。为减少假阳性,仅考虑至少被两种统计量支持的基因,发现ADGRL4和GALNTL6等已知正选择候选基因。特别值得注意的是,TOMM20L、TIMM9和KIAA0586等基因被识别为候选基因,这些基因在先前研究中被发现承载现代巴布亚人中的高频丹尼索瓦人渗入单倍型区块。KIAA0586基因突变与朱伯特综合征(Joubert syndrome,一种罕见神经发育障碍)相关,在黑猩猩和恒河猴中也显示正选择信号,表明该基因在灵长类神经发育中可能具有跨谱系保守的重要功能。
本研究通过开发SAI软件包,解决了适应性基因渗入研究中的方法学瓶颈,促进了相关研究的可重复性和标准化。结果表明,现有统计量在强选择场景下效果显著,但弱选择场景仍需方法学改进。应用实践不仅验证了工具可靠性,还揭示了跨谱系适应性渗入的进化规律,如KIAA0586基因在多个灵长类谱系中反复出现正选择信号的发现,为理解适应性进化的分子机制提供了新视角。研究强调术语精确性(如等位基因频率计算基于祖先还是衍生等位基因)和技术透明度(如祖先等位基因推断方法)对结果一致性的关键影响,呼吁在计算方法日益复杂的背景下,加强理论严谨性与实现可及性的结合,以维护科学研究的可靠性与完整性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号