群体基因组数据中单起源稀有变异的精准识别:以疟蚊Anopheles gambiae为例
【字体:
大
中
小
】
时间:2025年11月04日
来源:Molecular Biology and Evolution 5.3
编辑推荐:
本研究针对群体基因组分析中常被忽略的复发突变问题,开发了基于三等位位点和连锁稀有变异的双重方法,首次量化了双ton突变中约16%为多起源,并成功筛选出高置信度单起源双ton(~57%),为大规模样本下的精细人口历史推断提供了新工具。
在群体遗传学研究中,一个长期存在的基本假设是:样本中某个等位基因的所有拷贝都源自谱系历史上单一祖先的一次突变事件。基于这一假设的“无限等位基因”和“无限位点”模型,构成了众多分析方法的基石。然而,现实情况要复杂得多。特别是在大规模群体基因组数据中,同一位点上的相同突变可能独立地发生在谱系树的不同分支上,这种现象被称为复发突变。尽管在经历强烈正向选择的位点上,复发突变已被广泛研究,但在中性或弱选择位点上的影响却常被忽视,这可能导致对个体亲缘关系、位点频谱等人口统计指标的误判,进而影响对有效群体大小、基因流和种群结构的准确评估。
稀有变异,尤其是那些在群体中频率极低的变异,通常被认为起源较近,更可能具有单一起源,因而在推断近期、精细尺度的人口历史方面具有独特价值。其中,双ton突变(在样本中仅有两个个体携带的突变)作为能够指示个体间亲缘关系的最稀有变异类型,其应用潜力巨大。但问题在于,即便像双ton这样稀有的变异,也可能存在多个独立起源。尤其是在种群规模大、突变率高或经历过近期扩张的物种(如主要疟疾媒介——冈比亚按蚊复合体)中,当样本量巨大时,复发突变的发生率可能远超普遍认知。因此,开发可靠的方法来识别高置信度的单起源稀有变异,对于提升人口统计推断的准确性至关重要。
发表在《Molecular Biology and Evolution》上的这项研究,旨在解决这一关键问题。研究人员开发了一套创新性的方法,首先估计群体基因组数据集中复发双ton的比例,进而识别出极有可能为单起源的高置信度双ton集合。
为开展研究,作者主要应用了以下几项关键技术:研究利用非洲疟蚊冈比亚按蚊复合体(Anopheles gambiae sensu lato)的公开基因组数据(Ag1000G项目Phase 2 AR1 release),聚焦于染色体臂3L上1,142个个体的约1千万个高质量单核苷酸多态性(SNP)位点。核心方法包括:1) 基于三等位点(其中一个碱基为主要类型,另有两个不同的单ton突变)的出现频率,利用推导的公式估算各类双ton突变的复发比例;2) 采用Mathieson和McVean描述的方法,通过寻找两侧最近的“不一致纯合子位点”来界定围绕双ton(或随机配对个体)的共享单倍型区域;3) 利用贝叶斯定理,结合共享单倍型区域内是否存在连锁稀有变异(LRV)这一信息,更新双ton为单起源(即两个携带者为该位点的互逆最近亲属RCR)的后验概率。此外,研究还使用msprime软件进行了溯祖模拟,以验证方法的有效性。
Estimating the proportion of single origin doubletons(估算单起源双ton的比例)
研究人员首先从理论出发,假设双ton要么源于一次突变且两个携带序列互为该位点的互逆最近亲属(RCR),要么源于两次独立的突变事件。他们巧妙地利用了三等位点(具有两个不同单ton)的数据。通过比较观察到的各类双ton数量与基于三等位点数据估算出的预期复发双ton数量,他们计算出每个突变类型(共12种)的单起源双ton先验概率P[RCR|d]。分析结果显示,在冈比亚按蚊3号染色体臂的1,116,970个双ton中,估计约有16%(约183,839个)是复发性的,即总体先验概率P[RCR|d]约为0.84。不同突变类型的复发比例差异很大,C→T和G→A转换突变的复发比例最高(~25%),而A→C和T→G颠换突变的复发比例最低(~5%)。
Estimating the probability of having a single origin(估算具有单起源的概率)
研究的第二个目标是筛选出高置信度的单起源双ton。其核心逻辑是:如果双ton是单起源且携带者为RCR,那么他们在连锁位点上也可能密切相关,从而共享连锁稀有变异(LRV)的概率会增高。因此,LRV的存在可以作为支持RCR的证据。作者构建了贝叶斯因子(BF)框架,将先验概率与观察到的LRV信息相结合,计算后验概率P[RCR|d, LRV]。他们需要估计几个关键参数:P[LRV|d](双ton有LRV的概率)、P[LRV|?d](随机配对位点有LRV的概率)以及P[RCR|?d](随机配对个体在某个位点是RCR的概率,理论推导值为8/(3(m-1)),其中m为单倍体基因组数,本研究m=2284,故P[RCR|?d]≈0.0012)。通过分析,他们发现双ton共享单倍型的长度中位数(5.5 kb)显著长于随机配对(2.9 kb),且双ton拥有LRV的概率也远高于随机配对(例如,拥有连锁单ton的比例为66% vs 32%)。
Identifying RCR doubletons(识别RCR双ton)
通过设定不同的LRV频率阈值(即LRV在数据集中的拷贝数n),研究人员计算了对应的后验概率。他们选择将LRV频率阈值设定在2-18个拷贝(次要等位基因频率<0.8%),因为超过此阈值,新增双ton被判定为RCR的概率将低于0.95。应用此标准,他们最终确定了290,704个独特的单倍型,携带636,938个双ton,这些双ton被判定为单起源的总体置信度高达99%。这部分双ton约占观察到的所有双ton的57%,约占估计的单起源双ton总数的68%。与随机配对相比,这些高置信度RCR双ton的共享单倍型更长(中位数14.3 kb vs 2.9 kb),且其上的LRV密度也更高。
Assessing the RCR classification(评估RCR分类)
为了独立验证方法的有效性,研究进行了多项分析。首先,比较了RCR双ton与单ton的突变频谱。如果双ton均为单起源,其各类突变的比例应与单ton相似;若均为复发,则比例应为单ton比例的平方。结果显示,RCR双ton的突变频谱与单ton非常接近,而未分类双ton的频谱则更接近复发突变的预期。其次,分析了双ton共享模式。过滤掉可能的多起源双ton后,RCR双ton在国家内部的共享显著增强,而国家间的共享减少,这与去除“噪音”后地理邻近性信号更清晰的预期一致。最后,基于msprime的溯祖模拟在四种不同人口统计场景下(恒定种群 vs 种群扩张;随机交配 vs 岛屿模型)验证了方法,表明估算的复发双ton比例与真实值高度吻合,且推断的RCR概率与真实比例也非常接近,仅在所有场景中略有低估。
Using RCR doubletons for population genetic analyses(利用RCR双ton进行群体遗传学分析)
获得高置信度的单起源双ton后,研究人员将其应用于检验几个群体遗传学假设。
- •Recombination(重组):分析发现,无论是RCR双ton还是随机配对的单倍型,在着丝粒附近的长度都显著长于染色体其他区域,且这种差异在起始20Mb内逐渐衰减,这与着丝粒区域重组率较低的预期相符。
- •Selection(选择):比较零倍简并位点(更可能有害)和四倍简并位点上的双ton,发现前者的 flanking 单倍型长度显著长于后者(中位数20.5 kb vs 16.0 kb)。同样,在21种按蚊中完全保守的位点(可能受更强纯化选择)上的双ton,其单倍型长度也略长于非保守位点。这些结果支持了负选择下有害突变更近期、因而单倍型更长的理论预测。
- •Isolation by distance(距离隔离):数据显示,RCR双ton在国家内部个体间的共享比例(48%)远高于未分类双ton(21%)和随机期望(11%)。此外,同一国家内个体共享的RCR双ton单倍型长度显著长于不同国家间个体共享的。若仅考虑国家间共享的RCR双ton,其总共享单倍型长度与地理距离呈负相关,且这种相关性在An. coluzzii中比在An. gambiae s.s.中更陡峭,提示前者可能存在更强的距离隔离效应、更小的局部有效群体大小和/或更短的扩散距离。
本研究成功地开发并验证了一套方法,用于在群体基因组数据中识别高置信度的单起源双ton突变。这不仅量化了在像冈比亚按蚊这样具有大种群和近期扩张历史的物种中,复发突变对稀有变异的影响不可忽视(约16%的双ton为多起源),更重要的是,提供了一种有效的手段来获取一个“纯净”的、极可能标识近期共祖事件的变异集合。该方法不依赖于特定的人口统计模型假设,主要基于经验数据(三等位点频率、共享单倍型特征)和概率计算,具有较强的鲁棒性。利用筛选出的RCR双ton,研究揭示了其在探测重组率变异、选择强度和地理隔离模式方面的强大应用潜力。这些单倍型所携带的关于近期人口历史、基因流和选择的信息,对于理解物种适应性进化、评估蚊媒控制措施(如基因驱动)的潜在种群遗传后果具有重要意义。未来,该方法可进一步扩展至分析更高频率的稀有变异,或结合更精细的突变谱模型和相位信息,以获取更多关于种群参数的定量估计,为群体基因组学和疾病媒介生物学研究提供更强大的工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号