Locityper:实现复杂多态基因靶向基因分型的新方法

《Nature Genetics》:Locityper enables targeted genotyping of complex polymorphic genes

【字体: 时间:2025年10月18日 来源:Nature Genetics 29

编辑推荐:

  本研究针对人类基因组中数百个结构变异复杂、难以准确进行变异检测的疾病相关基因,开发了Locityper这一靶向基因分型工具。该工具利用短读长和长读长全基因组测序数据,通过比对到单倍型参考面板并优化读段比对、插入大小和读段深度特征,实现了对256个挑战性医学相关基因位点的精准分型。结果显示,Locityper在Illumina和PacBio HiFi数据上的中位质量值分别达到35.27和36.90,显著优于现有最佳分型流程。该工具为HLA、KIR、MUC和FCGR等超多态基因家族的关联研究提供了可行方案,有望推动生物样本库规模队列的疾病遗传学研究。

  
人类基因组中存在着大量结构复杂的多态性位点,其中近400个医学相关基因由于高度重复性和多态性特征,传统方法难以进行准确变异检测。这些"暗"基因区域成为遗传学研究中的盲点,阻碍了疾病相关基因的发现。尽管长读长测序技术的发展为解析复杂位点提供了新机遇,但其在大规模队列应用中的高昂成本仍限制着临床应用。在这一背景下,德国杜塞尔多夫大学等机构的研究团队在《Nature Genetics》发表了题为"Locityper enables targeted genotyping of complex polymorphic genes"的技术报告,提出了一种创新的靶向基因分型方法。
研究人员开发了Locityper这一工具,其核心技术在于利用pangenome参考或自定义等位基因序列集合,通过整合读段深度、比对一致性和双端距离等多重信号,建立统计模型来推断基因型似然。该方法首先通过minimizer技术同时招募所有目标位点的读段,随后将读段分配到可能的单倍型比对位置,最终通过整数线性规划或随机优化找到最可能的单倍型对。研究团队在256个挑战性医学相关基因位点(涵盖13.9 Mb区域)上对工具性能进行了系统评估。
关键技术方法包括:基于minimizer的读段招募技术、整合比对错误率与插入片段大小的概率模型、整数线性规划优化算法,以及利用人类泛基因组参考联盟(HPRC)的90个单倍型参考面板。评估使用了40个HPRC Illumina WGS数据集、20个PacBio HiFi数据集和模拟数据,采用留一法(leave-one-out)验证策略,通过与实际单倍型的序列差异计算质量值(QV)进行评估。
Locityper准确分型挑战性位点
在Illumina WGS数据上,Locityper在20,350个完全组装的位点单倍型中实现了中位QV=35.27,58.8%的单倍型达到QV≥33(即每10kb差异不超过5bp)。在模拟数据中表现更优(中位QV=35.65),而PacBio HiFi和ONT数据上的中位QV分别达到36.90和35.95。与最优解相比,Locityper在Illumina和HiFi数据上的表现仅分别相差1.66和0.03个QV值,证明其接近最优性能。
与变异检测流程的比较
Locityper显著优于现有的变异检测流程。与1000基因组计划(1KGP)的调用集相比,Locityper将中位QV从24.41提升至35.27。在PacBio HiFi数据上,Sniffles+DeepVariant组合的中位QV为35.19,仍低于Locityper的36.90。基于563个 trio样本的孟德尔一致性分析显示,64.8%的单倍型达到QV≥43,中位一致性QV超过44.4。
HLA和KIR基因的准确分型
在MHC和KIR基因簇的评估中,Locityper在LOO设置下对HLA基因实现了88.8%的完全匹配率,显著优于专用分型工具T1K(64.1%)。在KIR基因簇中,Locityper和T1K的完全匹配率分别为80.8%和57.9%。当使用完整参考面板时,Locityper在MHC和KIR位点的准确率分别达到99.4%和99.9%。
疾病相关基因家族的准确分型
Locityper在黏蛋白(MUC)基因家族分析中表现出色,在15个MUC位点上的平均QV比1KGP调用集提高10.5,其中MUC6和MUC16的改善最为显著(分别提高29.7和18.5)。在FCGR2B和FCGR3A基因上,QV分别提升4.95和9.3。此外,在CFH和CYP2基因家族中也观察到显著改善(分别提升12.3和平均4.6)。
运行时间和内存使用
Locityper表现出优异的计算效率,每个样本在8线程下的总运行时间为1小时35分钟。WGS预处理平均耗时16分钟,读段招募和位点分型分别需要15分钟和45分钟。内存使用方面,预处理阶段消耗15GB RAM,分型阶段需要7GB RAM。
该研究开发的Locityper工具突破了复杂多态基因分型的技术瓶颈,为在大型测序队列(如1000基因组计划、All-of-Us项目和UK Biobank)中研究 previously intractable的疾病相关基因提供了可行方案。随着pangenome参考中单倍型数量的增加,Locityper的准确性有望进一步提升,这将推动复杂基因位点在全基因组关联研究(GWAS)和表型组关联研究(PheWAS)中的应用,为发现新的疾病关联和解释"缺失遗传性"提供重要工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号