综述:群体基因组学中的哈迪-温伯格平衡过滤:实证回顾与改进实践决策框架

《Ecology and Evolution》:Hardy–Weinberg Equilibrium Filtering in Population Genomics: Empirical Review and Decision Framework for Improved Practice

【字体: 时间:2026年01月11日 来源:Ecology and Evolution 2.3

编辑推荐:

  本文系统评述了哈迪-温伯格平衡(HWE)过滤在群体基因组学中的应用现状,指出其虽被广泛使用但实践仍不一致。作者通过实证调查发现,尽管对HWE过滤局限性的认知度提升,结构化群体感知的过滤方案使用比例有所增加,但阈值报告和方案合理性说明仍显不足。文章综合分析了HWE偏离的生物学(如瓦隆效应Wahlund effect、近交)与技术因素(如等位基因丢失allele dropout),并推荐将HWE过滤重构为基于研究目标与群体结构的假设驱动决策,同时提出了兼顾群体结构感知的过滤工作流程,以提升分析的稳健性与可重复性。

  
在群体基因组学研究中,哈迪-温伯格平衡(HWE)检验作为一个经典工具,用于评估基因型频率是否符合随机交配群体的预期。然而,随着测序技术(如RADseq、GBS、lcWGS等)的普及,HWE过滤常被不加区分地用作标准质控步骤,这可能导致具有生物学意义位点(如反映群体结构或局部适应的位点)被错误剔除。本文基于对引用Pearman等(2022)研究的50篇实证文献的调研,揭示了当前HWE过滤实践中的异质性与报告透明度问题,并提出了结构化、可操作的决策框架。
为什么基因座会偏离HWE?
HWE偏离可能源于真实的生物学过程或技术误差。生物学因素包括非随机交配(如近交、选型交配)、自然选择(如平衡选择导致杂合子过剩)、以及群体结构引起的瓦隆效应——当亚群体被混合分析时,会因等位基因频率差异而出现杂合子缺失。技术误差则包括限制性位点突变导致的等位基因丢失、PCR重复以及覆盖度不均等,这些可能夸大FST等参数估计。由于二者难以区分,在群体结构未知时盲目过滤易丢失有意义信号。
野生动物群体结构研究中的HWE过滤趋势与困境
常见的HWE过滤方案包括:“Out Combo”(跨混合样本过滤)、“Out Any”(任一群体偏离即剔除)、“Out Within”(仅在偏离群体中剔除)和“Out All”(仅在所有群体均偏离时剔除)。其中,“Out Combo”作为VCFtools、STACKS等工具的默认设置,虽能去除不可靠位点,却可能剔除蕴含群体结构信息的位点,降低聚类分辨率。近年来,尽管部分研究开始采用群体感知方案(如“Out Any”或“Out All”),但过滤阈值、多重检验校正等关键细节的报告仍不充分,限制了结果的可比性与可重复性。
迷你调研:群体感知实践是否正在成为标准?
对50篇引用Pearman等(2022)的实证研究分析显示,约40%的研究明确省略了HWE过滤或仅进行检验而不过滤。在实施过滤的研究中,采用群体感知方案(“Out All”、“Out Any”或“Out Within”)的比例从Pearman等早先报道的10.1%升至42%,表明方法论意识有所提升。同时,超过80%的研究至少报告了部分过滤细节(如方案、阈值或校正方法),反映出透明度改善的积极趋势。然而,仍有部分研究未明确说明是否及如何应用HWE检验,凸显了标准化报告的必要性。
HWE过滤的方法学替代方案
为减少过滤偏差,多种替代策略被提出:
  • 群体感知过滤:在通过PCA、ADMIXTURE等方法推断群体结构后,再应用“Out All”等保守方案。
  • 祖先信息感知检验:如RUTH(Robust Unified Test for HWE)可整合基因型似然与个体祖先成分,提升低覆盖度或混合样本中的检验稳健性。
  • 不预设HWE的聚类方法:如entropy、LEA等模型,直接从未知结构中推断群体划分。
  • 模拟评估:利用SLiM、fastsimcoal2等工具模拟不同群体历史场景,评估过滤方案对FST、 outlier检测等下游分析的影响。
  • 机器学习辅助质控:如ForestQC、DeepVariant通过整合多特征分类,减少对单一HWE阈值的依赖。
群体结构感知的HWE过滤实用工作流程
本文提出一个基于研究目标的决策框架(图2):
  • 若研究聚焦局部适应或基因型-环境关联(GEA):HWE过滤通常不必要,因偏离可能反映选择信号。建议依赖测序深度、缺失率、最小等位频率(MAF)等基础质控。
  • 若目标为推断群体结构或中性过程:可先通过无监督聚类(如PCA)初步划分群体,再应用群体感知过滤(如“Out All”保留结构信息位点)。同时进行敏感性分析,比较不同过滤方案的结果稳定性。
  • 若群体边界模糊或存在连续混合:推荐使用RUTH等结构感知检验,或直接采用不假设HWE的聚类方法。
  • 透明化报告:需明确说明是否过滤、所用方案、阈值、多重检验校正及群体定义依据。对于同时涉及结构推断与适应性分析的研究,建议对中性分析使用过滤数据集,而对GEA等分析保留未过滤位点,以避免剔除受选择位点。
结论
HWE过滤不应是默认的质控步骤,而应作为基于生物学假设的决策工具。随着群体基因组学向系统特异性分析框架发展,结合研究目标、群体背景与过滤逻辑的透明化实践,将显著提升结果的生物学合理性与可重复性。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号