“适居带”中的变体调用:参考基因组的选择及读段映射的严格程度如何影响杂合性估计和系统发育分析
《Molecular Ecology Resources》:Variant Calling in the Goldilocks Zone: How Reference Genome Choice and Read Mapping Stringency Impact Heterozygosity Estimates and Phylogenetic Analyses
【字体:
大
中
小
】
时间:2025年11月23日
来源:Molecular Ecology Resources 5.5
编辑推荐:
本研究比较了四种北美东部白橡树参考基因组与七种样本的映射方法(全局/局部对齐),发现参考基因组的亲缘关系与映射方法共同影响遗传异质性和系统发育树结构。使用近缘非同种参考(如蒙古槐)结合全局映射(Bowtie 2 --end-to-end)能最大限度减少数据偏差,同时保持较高的读映射准确性和异质性估计的稳定性。结论为多物种基因组学研究推荐使用近缘非同种参考及严格全局映射方法。
这项研究探讨了在进行多物种群体基因组学和系统基因组学分析时,参考基因组的选择以及读取映射方法对数据质量和结果准确性的影响。随着新一代测序技术的成本下降,越来越多的研究开始使用多物种全基因组测序数据来解答关于群体遗传和系统发育的问题。然而,如何在众多参考基因组和映射方法中做出最优选择,仍然是一个挑战。特别是在研究如东部北美白橡(*Quercus* sect. *Quercus*)这样的物种群时,这些物种之间的遗传距离较大,且存在复杂的杂交和基因渗入现象,因此需要特别关注参考基因组和映射方法对分析结果的影响。
研究团队对七种东部北美白橡及其相关样本进行了全基因组重测序,并将这些数据映射到四个不同的参考基因组上:*Q. alba*、*Q. lobata*、*Q. mongolica* 和 *Q. rubra*。这四个参考基因组分别代表了与样本不同的遗传亲缘关系。为了评估映射方法对结果的影响,研究团队采用了三种不同的映射方法:全局对齐(Bowtie 2 --end-to-end)和两种局部对齐(Bowtie 2 --local 和 BWA-MEM)。通过分析这些映射后的数据,研究团队评估了读取映射的准确性、效率、缺失数据、杂合度以及系统发育树的构建情况,从而探索参考基因组和映射方法的联合影响。
研究发现,参考基因组与样本的遗传距离和映射方法共同影响了杂合度和系统发育树的估计。其中,第一个显著的影响是:当使用全局对齐方法(Bowtie 2 --end-to-end)时,遗传距离的增加对杂合度的影响非常小。这表明,即使参考基因组与样本存在一定的遗传差异,全局对齐方法仍然能够保持较高的杂合度估计精度。然而,第二个显著的影响是:遗传距离最远的参考基因组会导致碱基对的回收率显著下降,进而可能造成杂合度的高估或低估,同时影响系统发育树的平衡性。这说明,使用与样本亲缘关系较远的参考基因组可能会引入较大的偏差,尤其是在使用局部对齐方法时,由于更宽松的映射标准,可能会增加误配和多重映射的情况,从而影响结果的准确性。
研究团队还发现,使用与样本亲缘关系较近但并非同种的参考基因组,能够有效减少参考偏差,同时保持较高的读取映射效率和准确性。而使用全局对齐方法(Bowtie 2 --end-to-end)则能够最大程度地减少误配,从而提供更准确的变异调用结果。因此,研究建议在进行多物种基因组学分析时,应优先选择与样本亲缘关系较近的参考基因组,并使用全局对齐方法,以最大程度地减少偏差并提高结果的可靠性。
此外,研究还发现,局部对齐方法(如 BWA-MEM 和 Bowtie 2 --local)虽然能够提高读取映射的数量,但可能会影响结果的准确性。例如,在遗传距离较远的情况下,局部对齐方法会导致杂合度的显著增加,这可能是由于映射错误和多重映射造成的。相比之下,全局对齐方法虽然映射的读取数量较少,但能够更精确地识别和调用变异,从而减少误判。因此,在进行多物种分析时,应权衡读取映射的数量和准确性,选择最适合当前研究目标的参考基因组和映射方法。
在系统发育分析方面,研究发现,不同的参考基因组和映射方法会导致不同的系统发育树拓扑结构和分支长度。例如,当使用与样本亲缘关系较远的参考基因组时,系统发育树的分支长度可能会增加,这可能反映了由于映射错误导致的变异误判。而在使用与样本亲缘关系较近的参考基因组时,系统发育树的拓扑结构可能更加稳定,分支长度更合理。这一发现表明,在构建系统发育树时,参考基因组的选择和映射方法的使用对结果的可靠性有重要影响。
总体而言,研究强调了在进行多物种基因组学分析时,参考基因组和映射方法的联合选择对结果的准确性和可靠性至关重要。研究建议,在可能的情况下,应选择与样本亲缘关系较近但非同种的参考基因组,并使用全局对齐方法,以最大程度地减少参考偏差和误映射。然而,如果无法获得合适的参考基因组,使用同种参考基因组也是可行的选择,但需要注意其可能引入的偏差。对于遗传距离较远的样本,局部对齐方法可能有助于提高数据回收率,但需要谨慎评估其对结果准确性的影响。此外,研究还指出,随着长读长测序技术的发展,未来可能会有更多机会使用更长的读取数据,从而提高映射的准确性和对结构变异的识别能力。然而,在短期内,短读长数据仍然是多物种基因组学研究的重要工具,因此需要在选择参考基因组和映射方法时做出合理的权衡。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号