基于长读长测序的SV精准分型方法cuteFC:通过自适应聚类与多等位基因识别提升结构变异检测效能

【字体: 时间:2025年06月14日 来源:Genome Biology 10.1

编辑推荐:

  针对长读长测序中结构变异(SV)分型准确性不足的难题,哈尔滨工业大学团队开发了cuteFC方法。该方法通过自适应聚类与多等位基因感知聚类策略,结合基因组位置扫描(GPS)算法,在模拟和真实数据集中实现92-95%的F1分数,较现有工具提升2-5%,为大规模人群SV图谱构建提供了高效解决方案。

  

在基因组研究领域,结构变异(SV)作为长度超过50bp的DNA序列改变,包括缺失(DEL)、插入(INS)、倒位(INV)、重复(DUP)和易位(TRA)等多种类型,与人类疾病、种群进化和表型多样性密切相关。然而传统基因组关联研究(GWAS)主要关注单核苷酸变异(SNV)和短插入缺失(indel),忽视了SV的重要遗传贡献。随着Pacific Biosciences(PacBio)和Oxford Nanopore Technologies(ONT)等长读长测序技术的发展,虽然为SV检测带来新机遇,但测序错误、覆盖度限制以及SV复杂性导致的分型不准确问题,仍是构建高质量人群SV图谱的主要瓶颈。

哈尔滨工业大学的研究团队在《Genome Biology》发表的研究中,开发了名为cuteFC的创新性SV分型方法。该方法通过四项关键技术突破:1)从比对文件中提取多类型SV特征;2)基于空间相似性的特征标记与聚类策略选择;3)基因组位置扫描(GPS)算法实现线性时间复杂度;4)最大似然估计分型赋值,在模拟和真实数据集中展现出显著优势。研究证明cuteFC在30x测序深度下F1分数达92.81-95.77%,较cuteSV、Sniffles2等工具提升2-5%,且在5x低覆盖度下仍保持83%以上的准确性。

关键技术方法包括:1)使用VISOR(v1.1.2)生成包含3668个SV的模拟数据集;2)基于GIAB HG002标准样本的PacBio HiFi/CLR和ONT测序数据验证;3)中国人群100例15x ONT测序队列分析;4)采用Truvari(v3.5.0)进行结果评估;5)通过BCFtools(v1.9)计算变异等位基因频率(VAF)和Hardy-Weinberg平衡检验。

研究结果部分,"Benchmarks of regenotyping performance on simulation datasets"显示,cuteFC在HiFi、CLR和ONT模拟数据中F1分数分别达92.81%、93.15%和93.09%,对10kbp以上大片段插入和易位的分型准确率分别达95%和68%。在"Benchmarks of regenotyping performance on the HG002 datasets"中,基于GIAB SV v0.6标准,cuteFC在四种测序技术中F1分数均超过92%,其中HiFi数据达到95.77%。特别值得注意的是,在挑战性医学相关基因(CMRG)区域,cuteFC通过多等位基因感知聚类使分型准确率较次优工具提升5-8%。

"Benchmarks of regenotyping performance on a large-scale Chinese cohort"部分验证了人群应用价值。在100例中国人群数据分析中,cuteFC过滤的低质量SV比例最低(HWE 5.07%,ExcHet 2.81%),且与HGSVC国际队列的共享SV一致性达17,063个。对两个样本的PacBio HiFi组装验证显示,cuteFC对单例和双例SV的发现率分别达91.69%和89.91%,错误基因型比例仅为6/217和16/116。

在"Evaluation of the computational performance"方面,GPS算法使cuteFC在16线程下仅需3分钟/样本完成100例人群分析,内存占用稳定在4.84GB,较cuteSV提速3-5倍。该算法集成至cuteSV后,使其SV检测时间缩短至10分钟/样本以内。

研究结论指出,cuteFC通过三大创新解决了SV分型的关键问题:1)自适应聚类消除无关等位基因干扰;2)K-means聚类准确识别多等位基因区域;3)GPS算法实现人群规模应用。这些突破使得在保持92-95%分型准确率的同时,能高效处理千人规模SV数据集。局限性在于目前尚不能解决序列高度相似的SV分型,以及多倍体植物基因组的复杂SV事件。该研究为人群遗传学研究和罕见病分析提供了新工具,其代码已在GitHub开源,将推动长读长测序在精准医学中的更广泛应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号