基于长短读长测序的法国牛结构变异全面检测与基因分型性能评估
《Scientific Reports》:Comprehensive detection of structural variations in long and short reads dataset of French cattle
【字体:
大
中
小
】
时间:2025年11月20日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对短读长(SR)测序在结构变异(SV)检测中的局限性,系统评估了长读长(LR)测序技术(PacBio HiFi/CLR和ONT)和多种SV检测工具的性能。研究人员通过对14个法国牛品种的176个LR样本和571个SR样本进行分析,发现PBSV在跨LR技术平台表现最稳定,VG工具在SR数据SV基因分型中准确度最高。研究构建了包含55,309个双等位基因气泡的变异图谱,成功对571个SR样本进行了SV基因分型,为牛基因组结构变异研究提供了重要资源和方法学指导。
在基因组学研究中,结构变异(SV)作为长度超过50bp的大规模基因组变异,对遗传多样性的影响远超过单核苷酸多态性(SNP)和小片段插入缺失(InDel)。然而,SV检测一直面临巨大挑战:短读长(short-read, SR)测序技术由于读长限制和重复序列区域对齐困难,难以准确检测插入等复杂变异;而长读长(long-read, LR)测序虽能提高检测精度,但成本较高且数据分析方法仍需优化。
目前,牛基因组研究中SV的全面鉴定仍显不足。早期研究基于SR数据在62头公牛中检测到6,462个SV,另一项在310头荷斯坦牛中发现约68,000个SV,但检测范围有限。随着牛泛基因组计划的推进,迫切需要开发高效准确的SV检测与分型方法,特别是在多品种群体中的应用。
在这项发表于《Scientific Reports》的研究中,由Maulana Mughitz Naji领衔的研究团队开展了一项系统性研究,旨在全面评估SV检测方法在牛基因组中的应用。研究团队收集了14个法国牛品种的176个LR样本和571个SR样本,其中154个个体同时具有LR和SR数据,为方法比较提供了独特资源。
研究人员首先评估了三种主流SV检测工具(CUTESV、PBSV和SNIFFLES)在不同LR技术平台(PacBio HiFi、Oxford ONT和PacBio CLR)上的性能。通过对同一夏洛莱小母牛(CHA18)的三种LR数据进行分析,发现PBSV在跨平台一致性方面表现最佳,F1分数在缺失检测中超过0.91,在插入检测中超过0.84。特别值得注意的是,在PacBio CLR数据中,CUTESV和SNIFFLES在50-100bp范围内出现了插入检测的膨胀现象,而PBSV则能稳定检测到约143bp的特征峰,该峰值可能与转座因子家族(SINE、LTR、LINE)相关。
在SR-based SV基因分型工具评估中,研究比较了三大类工具:基于比对的传统呼叫器(DELLY、LUMPY、MANTA)、基于已知SV的基因分型工具(GRAPHTYPER、PARAGRAPH、SVTYPER)以及变异图谱工具(VG)。结果表明,利用已知SV信息的工具性能显著优于传统方法。VG和PARAGRAPH在154个同时具有LR和SR数据的样本中表现最佳,F1分数分别达到0.94和0.99。特别值得注意的是,VG在基因型一致性方面优于PARAGRAPH(0.89 vs 0.78),且计算资源需求更低。
研究还探讨了参考面板样本数量和品种多样性对SV基因分型性能的影响。随着参考面板从单一品种(荷斯坦)扩展到14个品种,验证样本的召回率逐渐提高并趋于稳定(约0.83),但精确度有所下降(平均降低0.08)。这表明增加品种多样性有助于提高SV检测的敏感性,但可能以特异性为代价。
通过参数优化,研究团队最终确定了构建多品种SV参考面板的最佳参数:使用JASMINE默认合并参数,并应用VARCALLS阈值7(即仅在至少7个样本中检测到的SV被保留)。基于这一标准,他们构建了包含55,309个双等位基因气泡的变异图谱,对应25,191个缺失和30,118个插入,为牛基因组增加了约5,200万bp的变异多样性。
关键技术方法包括:使用pbmm2将LR数据比对到ARS-UCD1.2参考基因组;采用PBSV进行SV检测;使用TRUVARI进行SV集比较和基准测试;应用JASMINE合并多样本SV;利用VG构建变异图谱并进行SR基因分型。样本来源于14个法国牛品种,包括12个阿邦当斯奶牛奶牛、40头奥布拉克肉牛等。
主要研究结果方面,在"不同LR数据上SV检测工具评估"中,研究发现PBSV在三种LR技术上表现最一致,特别是在插入检测方面优于其他工具。在"基于SR的SV基因分型工具评估"中,VG被确定为最优工具,尤其在基因型一致性方面表现突出。"扩展参考SV面板的数量和多样性"表明,增加参考面板的品种多样性可提高召回率,但会轻微降低精确度。
"构建14个品种SV参考面板的最佳参数"确定了JASMINE默认参数结合VARCALLS阈值7为最优方案。"大型SR样本队列中的SV基因分型"成功对571个SR样本进行了基因分型,平均每个个体获得约55,000个基因型。主成分分析显示,荷斯坦与其他法国品种在第一主成分(34.26%方差)上明显分离,蒙贝利亚尔和诺曼底在第二主成分(18.23%方差)上分别位于两端。频率分析发现,4.21%的SV为主要等位基因(AF>0.7),12.01%为稀有等位基因(AF<0.1)。
讨论部分强调,本研究首次在牛基因组中系统评估了LR和SR数据在SV检测中的应用。研究证实了PBSV在跨LR技术平台上的稳定性,解决了CLR数据中插入检测的偏差问题。VG在SR-based SV基因分型中的优异表现,为利用大量现有SR资源进行SV研究提供了实用方案。构建的多品种SV参考面板和基因分型结果,为后续群体遗传学和关联分析提供了宝贵资源。
该研究的创新点在于建立了从LR SV检测到SR大规模基因分型的完整流程,并系统评估了各环节的工具性能。研究成果不仅对牛基因组研究有直接应用价值,也为其他物种的SV研究提供了方法学参考。随着更多牛品种基因数据的积累,这种整合LR和SR的策略将有助于全面揭示SV在牛重要经济性状形成中的作用,为育种改良提供新靶点。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号