基于读长预分型的长读长测序结构变异基因分型新方法SVUPP提升基因分型准确性
《Bioinformatics》:Pre-phasing long reads improves structural variant genotyping
【字体:
大
中
小
】
时间:2025年10月25日
来源:Bioinformatics 5.4
编辑推荐:
本研究针对长读长测序中结构变异(SV)基因分型准确率低的问题,开发了整合读长分型信息的SVUPP方法。通过将单核苷酸多态性(SNP)分型信息纳入基因型似然计算,SVUPPQ-C在Platinum Pedigree基准测试中显示出比cuteSV2、Sniffles2和kanpig更低的基因型不一致率,特别是在无邻近SV的区域。该方法适用于ONT超长读长、ONT Simplex和PacBio HiFi数据,为群体遗传学和疾病研究提供了更可靠的SV基因分型工具。
在基因组学研究中,结构变异(Structural Variants, SVs)作为长度超过50个碱基对的大规模遗传变异,包括缺失、重复、倒位、易位等类型,对基因功能调控和疾病发生具有重要影响。然而,即使采用高通量长读长测序技术,当前最先进的SV基因分型方法如kanpig、Sniffles2和cuteSV2在准确识别基因型方面仍面临巨大挑战,即使使用高质量>30X的Pacific Biosciences(PacBio) HiFi和Oxford Nanopore Technologies(ONT) R10数据,仍存在相当比例的基因分型错误。
针对这一技术瓶颈,哥本哈根大学的研究团队在《Bioinformatics》上发表了一项创新性研究,提出了名为SVUPP(Structural Variant genotype calling Using Pre-Phased reads)的新方法。该方法的核心创新在于将读长分型信息整合到基因型似然计算中,显著提升了SV基因分型的准确性。
研究方法上,团队首先利用QUILT2(v2.0.4)或WhatsHap(v1.7)对目标个体的长读长数据进行预分型,仅基于单核苷酸多态性(Single Nucleotide Polymorphism, SNP)信息将每个读长概率性分配到两个亲本单倍型。随后使用cuteSV2进行SV读长分配,最后将单倍型概率和读长分配信息用于计算SV基因型似然(Genotype Likelihoods, GLs),并基于此进行基因型调用和基因型质量(Genotype Quality, GQ)评估。研究采用Platinum Pedigree的ONT超长读长数据(平均读长72kb)和1000 Genomes Project的ONT Simplex数据(平均读长12kb)进行基准测试。
Improved genotype calling on Platinum Pedigree ONT data
研究结果显示,在分析超长ONT数据时,SVUPPQ-C在无邻近SV的区域表现优异。约60%的SVs没有邻近变异,这些区域的基因型不一致率明显较低。当选择70,000个GQ最高的SV基因型调用时,SVUPPQ-C的基因型不一致率为6.5%,显著低于Sniffles2(10.0%)、cuteSV2(8.5%)和kanpig(11.1%)。随着GQ阈值变得更加严格,SVUPP的优势进一步扩大,特别是在插入变异方面改善尤为明显。
Measuring genotype discordance
在不同测序深度(5X、10X、20X和30X)下的性能评估表明,所有方法的基因型不一致率在较低深度时均较高,但SVUPPQ-C在所有测试深度和GQ阈值下均表现最佳。值得注意的是,30X与20X相比,不一致率的改善有限,表明在达到一定深度后,单纯增加测序深度对提升准确性的贡献有限。
No effect of phasing software choice
研究还发现,分型软件的选择对SVUPP性能影响不大。使用不依赖SNP参考面板的WhatsHap与使用UK Biobank单倍型参考面板的QUILT2相比,SVUPP的表现相似,这意味着SVUPP可用于非模式生物的研究,其中参考面板不可用。
SVUPP also improves performance on ONT Simplex and PacBio HiFI data
在常用的较短ONT Simplex读长数据上,SVUPPQ-C对ONT数据类型不敏感,而Sniffles2和kanpig在较短 simplex读长上的表现远差于超长读长。在更准确的PacBio HiFi读长上,所有方法都显示出比ONT数据更高的准确性,但SVUPPQ-C在无邻近SV的基因分型方面仍然表现最佳。
Improved genotype calling when a list of structural variants is not available
针对大多数真实数据集缺乏高质量SV列表和基因型真实集的情况,研究团队使用1000 Genomes Project的6个三人家系ONT Simplex数据,以孟德尔错误率作为基因型不一致率的替代指标进行评估。结果显示,基于Sniffles2与Truvari以及cuteSV2与SURVIVOR两种SV发现流程推断的SV列表,SVUPPQ-C在所有GQ阈值下的总体孟德尔错误率均低于Sniffles2和kanpig。
Measuring Mendelian patterns and errors
当按三种亲本基因型组合进行分层分析时,研究发现kanpig和cuteSV2在双亲为同一等位基因纯合子的情况下基因型调用百分比更高(>70%),这类位点包含许多孟德尔错误无法捕获的隐藏基因型错误。值得注意的是,在亲本被称为不一致纯合子(亲本基因型02)的位点上,SVUPPQ-C的错误率远低于其他方法。
研究结论表明,SVUPP通过将每个读长的分型信息整合到基因型似然中,显著提高了现有方法中的SV基因分型准确性。与主要考虑单个位点等位基因深度的其他最先进SV基因分型方法相比,SVUPP额外利用了来自相邻SNP的分型信息。该方法在无邻近SV的区域优势明显,且适用于多种长读长数据类型,为群体遗传学研究和疾病关联分析提供了更可靠的SV基因分型工具。未来研究可进一步探索不同先验概率的使用以及通过单倍型插补方法建模局部连锁不平衡模式和群体中的单倍型共享信息来优化基因型调用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号