编辑推荐:
为解决杂交区研究中 AIMs 识别、杂交指数和类间杂合度计算及三角图可视化的难题,研究人员开展了关于 R 包 triangulaR 的研究。结果显示,triangulaR 能准确计算,且样本量低至 5 个个体时也可靠。该研究为杂交研究提供新工具,意义重大。
在生物进化的奇妙世界里,杂交现象一直是科学家们关注的焦点。杂交就像一场基因的 “狂欢派对”,不同亲本的基因相互交融,不仅为物种的进化提供了新的素材,还让我们有机会一窥物种形成的神秘过程。通过研究杂交,我们能深入了解生殖隔离的演变、表型变异的遗传基础,甚至发现新的适应模式,这对于自然种群遗传多样性的保护和管理至关重要。
在杂交区的研究中,准确识别个体的杂交身份和所属杂交类别是一项关键任务。以往的研究通常使用分子数据,通过计算杂交指数(即来自每个亲本群体的等位基因比例)和类间杂合度(具有来自两个亲本群体等位基因的位点比例)来进行判断。然而,随着研究的深入,问题逐渐暴露出来。现有的用于分析下一代测序数据集的资源在计算上要求过高,而且缺乏能够直观可视化三角图(一种展示杂交指数和类间杂合度关系的图形)的工具。这就好比在黑暗中摸索,科学家们急需一盏明灯来照亮前行的道路。
为了解决这些问题,美国堪萨斯大学生物多样性研究所、生态学与进化生物学系的研究人员 Ben J. Wiens、Lucas H. DeCicco 和 Jocelyn P. Colella 展开了深入研究。他们的研究成果发表在《Heredity》杂志上,为杂交区的研究带来了新的曙光。
研究人员开发了一个名为 triangulaR 的 R 包,旨在为杂交区的研究提供一种简单、快速的分析工具。该工具可以从单核苷酸多态性(SNP)数据集中识别祖先信息标记(AIMs),计算杂交指数和类间杂合度,并构建三角图以直观展示结果。
为了验证 triangulaR 的有效性,研究人员采用了多种技术方法。首先是遗传模拟,他们使用 SLiM 3 软件进行正向时间遗传模拟,模拟了两个亲本群体在低、中、高不同分化水平下的杂交过程,生成了包含已知杂交个体和亲本的数据集。其次是实证研究,利用来自阿拉斯加中南部两种歌雀(Passerella iliaca 和 P. unalaschcensis)杂交区的 RADseq 数据集进行测试。在这个数据集中,研究人员对样本进行了测序和 SNP 筛选,并通过观察羽毛模式来评估表型与基因型杂交指数之间的相关性。
研究结果主要从以下几个方面展开:
- Summary statistics:对模拟数据和实证数据进行汇总统计,发现 Passerella 雀的实证数据与模拟数据在分化水平和核苷酸多样性上相似。在模拟的不同阶段,亲本群体间的固定差异数量不同,这些差异用于追踪基因渗入情况12。
- Quantifying error in hybrid index and interclass heterozygosity estimates:量化杂交指数和类间杂合度估计中的误差,结果表明随着亲本群体样本量增加,估计的等位基因频率差异准确性提高。triangulaR 和 bgchm 的平均绝对误差(MAE)差异不大,且 MAE 随亲本群体样本量增加而降低,随亲本群体间差异增加而降低。不同杂交类别在不同等位基因频率差异阈值(δ)下,估计的准确性和精确性有所不同,例如 F2 估计在 δ=0.75 时更准确,且除 F1 外,估计精确性随 δ 降低而提高。杂交指数估计受测序深度影响小,但类间杂合度估计在 6X 深度或更高时才具有高准确性34。
- Empirical example:在实证研究中,90% 和 100% 完整性过滤分别保留了不同数量的 SNP。使用 δ=1 识别 AIMs 时,杂交指数估计与羽毛评分预期相符。不同亲本群体采样方式对杂交指数和类间杂合度估计有一定影响,且 triangulaR 与 bgchm 的估计结果高度可比5。
- Introgression and misspecification of parental populations:研究基因渗入和亲本群体误判的影响,发现随着时间推移,模拟中亲本群体间有基因渗入,但使用 δ=1 识别 AIMs 时,估计的亲本群体祖先比例未反映真实渗入情况,降低 δ 可识别部分混合情况,但仍无法完全恢复真实渗入水平。当个体被误判为亲本群体时,对杂交指数和类间杂合度估计有显著影响,不同混合比例个体受影响程度不同67。
研究结论和讨论部分强调了 triangulaR 的重要意义。它为杂交研究提供了一个强大的工具,能够帮助研究人员更高效地识别杂交个体、划分杂交类别、设计自然种群采样方案、分析下一代测序数据以及解读三角图。研究人员还针对研究设计和三角图解读提出了建议,例如选择合适的等位基因频率差异阈值,合理确定亲本群体样本量等。同时,研究也指出了一些常见的陷阱和避免方法,如在亲本群体差异极低时,需要对更大比例的基因组进行测序;在解释三角图时要考虑选择 δ 阈值和分配个体到亲本群体的假设等。此外,研究人员还展望了未来的研究方向,如开发更有效的方法来量化杂交指数和类间杂合度估计中的误差,以及进一步研究在存在生殖隔离时杂交指数和类间杂合度的理论预期等。
总的来说,这项研究为杂交区的遗传研究提供了新的思路和方法,triangulaR 的出现有望推动相关领域的进一步发展,帮助我们更好地理解生物进化的奥秘。