编辑推荐:
随着生物样本库规模扩大,精准推断基因组区域的祖先来源对解析遗传功能和历史至关重要。研究人员开发 SparsePainter 和 PBWTpaint 算法,应用于英国生物样本库,发现单倍型比主成分更能代表祖先,且确定了与免疫反应相关的选择信号,为理解病原体 - 免疫系统相互作用提供线索。
在生命科学领域,现代人类群体是复杂的遗传混合体,遗传混合现象从远古时期延续至今,涉及人类演化的方方面面。了解基因组区域的祖先来源,即本地祖先推断(LAI),对于绘制疾病位点、研究现代人群关系、改进关联研究以及探究人口历史具有重要意义。然而,准确且高效地进行 LAI 面临诸多挑战。现有多种 LAI 软件,但各有缺陷,如 HAPMIX 仅能模拟两种祖先,ChromoPainter 速度慢,LAMP - LD 不稳定等。在此背景下,为了突破这些困境,来自英国布里斯托大学(University of Bristol)、剑桥大学(University of Cambridge)和牛津大学(University of Oxford)的研究人员开展了深入研究。他们开发了两种近乎线性时间的算法 SparsePainter 和 PBWTpaint,相关研究成果发表在《Nature Communications》上。
研究人员运用的主要关键技术方法包括:利用位置 Burrows - Wheeler 变换(PBWT)提取与参考面板匹配的最长单倍型;SparsePainter 通过哈希表数据结构存储单倍型匹配信息,实现 Li 和 Stephens 隐马尔可夫模型(HMM)的稀疏近似计算;采用模拟数据对比多种软件在本地祖先和全基因组估计方面的性能;运用非负最小二乘法(NNLS)进行混合估计;通过计算连锁不平衡得分(LDAS)和祖先异常得分(AAS)评估选择信号。研究使用的数据来源包括英国生物样本库(UK Biobank)和 1000 基因组计划(1000 Genomes Project)。
研究结果如下:
- 方法概述:PBWTpaint 是 PBWT 的直接扩展,通过考虑有限的最大共享单倍型匹配,快速识别长匹配,实现全基因组祖先估计,还能提供重组事件数量和区域引导信息用于聚类。SparsePainter 则针对参考面板自身绘制(reference - vs - reference painting)或使用参考面板绘制目标个体(target - vs - reference painting)进行优化,可输出本地祖先估计和目标与参考祖先个体或群体间最近共享基因组的预期比例,用于混合历史建模。
- 性能比较:模拟实验表明,SparsePainter 在速度和内存效率方面表现出色,与其他软件相比,在精细尺度下速度更快,内存使用更高效。PBWTpaint 在识别全基因组单倍型结构方面比其他方法快几个数量级。
- 英国生物样本库分析:基于 PBWTpaint 计算的单倍型主成分(HCs)比常用的基于单核苷酸多态性(SNP)的主成分(PCs)更能反映遗传变异,与出生地和自我报告的种族相关性更强,预测出生地的准确性更高。
- 选择信号分析:以 1000 基因组计划数据为参考,对英国生物样本库个体进行本地祖先推断,通过 LDAS 和 AAS 分析发现,许多基因显示出与免疫反应相关的选择信号,这些信号在不同种族中共享或具有特异性,涉及从基因表达控制到 T 细胞受体识别和炎症等多个免疫反应层次。
研究结论和讨论部分指出,这两种算法显著提高了计算效率,同时保持了推断准确性,为大规模精细尺度单倍型分析提供了有力工具。HCs 能捕捉到 PCs 忽略的微妙遗传变异,有望在遗传研究中取代 PCs。此外,通过 LDAS 和 AAS 分析发现的免疫相关选择信号,暗示了现代人群形成过程中免疫反应的重要性,这可能与全球人口和病原体的持续扩张以及环境和文化因素有关。虽然这些选择信号的解释还需进一步验证,但该研究为深入探究本地祖先、免疫反应和疾病之间的关系提供了新的视角,强烈推动了在个体和群体历史重建之外更广泛地研究本地祖先。