TRFill算法:HiFi与Hi-C测序协同实现串联重复序列精准组装及群体水平分析

【字体: 时间:2025年07月30日 来源:Genome Biology 10.1

编辑推荐:

  本研究针对真核生物基因组中复杂重复区域(如串联重复序列、节段重复和着丝粒)组装难题,开发了TRFill算法。该研究利用PacBio HiFi和Hi-C数据,成功填补人类着丝粒α卫星阵列和番茄亚端粒串联重复序列的组装缺口,使约三分之二的重复序列完整性和正确性显著提升。突破性成果包括:首次实现仅用HiFi+Hi-C数据完成串联重复的精准组装;在番茄泛基因组中揭示重复序列的"局部相似性定律";开发基于遗传算法和模拟退火的创新组装策略。这项工作为群体水平研究复杂重复序列提供了新工具,相关成果发表于《Genome Biology》。

  

在基因组学研究领域,真核生物基因组中复杂的重复区域一直是阻碍获得完整基因组组装的"绊脚石"。着丝粒、端粒和节段重复等区域不仅占基因组很大比例,更蕴含着重要的功能元件和调控信息。然而,这些区域的高度重复特性导致传统组装方法产生大量缺口或错误连接,严重影响下游分析准确性。尽管PacBio HiFi和Oxford Nanopore超长读长测序技术显著提升了基因组完整性,但对于大规模群体基因组项目而言,获取端粒到端粒(T2T)级别的无缺口组装仍面临成本高、耗时长等挑战。

中国农业科学院农业基因组研究所(深圳)联合中国科学技术大学等机构的研究团队开发了创新算法TRFill,成功解决了这一难题。该研究通过巧妙结合HiFi测序数据的高准确性和Hi-C数据的空间互作信息,实现了仅用常规测序数据即可精准组装复杂重复序列的突破。相关成果发表在《Genome Biology》杂志,为群体水平研究重复序列的进化与功能提供了全新工具。

研究采用四项关键技术:1)基于假设检验的读段召回算法,通过k-mer分布分析准确识别目标区域读段;2)改进的图遍历算法,从hifiasm生成的unitig图中提取更完整的contig;3)结合动态规划和遗传算法的contig定位策略;4)整合HiFi和Hi-C信号的单倍型分型方法。实验数据包括人类HG002样本(36× HiFi+69× Hi-C)和29个番茄品种的测序数据。

【人类着丝粒α卫星阵列组装】
通过以CHM13 T2T组装为参考,TRFill成功改善了18条染色体中23个着丝粒的组装质量。与hifiasm+3D-DNA标准流程相比,TRFill使α卫星序列的完整性平均提高55%,其中15个着丝粒达到95%以上完整度。特别值得注意的是,在严格改进标准的9个着丝粒中,TRFill均显著提升了组装质量,而传统gap-filling工具LR_Gapcloser和SAMBA几乎无法处理这类长串联重复。

【番茄亚端粒重复序列分析】
在合成二倍体番茄基因组(TS2×TS281)测试中,TRFill改善了28个亚端粒中的15个,使SolSTE181重复序列的完整性和正确性分别提升53%和57%。群体分析揭示了1,677,830个181bp单体,发现12.1百万个高阶重复单元(HOR),其中三聚体出现频率最高。研究首次提出串联重复的"局部相似性定律"——同一亚端粒区域内的单体相似度显著高于不同亚端粒间单体。

【技术优势与验证】
TRFill的创新性体现在三方面:1)仅需HiFi+Hi-C数据,无需昂贵ONT超长读长;2)通过参考基因组引导的局部重新组装,避免传统参考基因组方法的偏差;3)开发专门针对重复序列的遗传算法和模拟退火优化策略。深度测试表明,当HiFi覆盖度≥36×、Hi-C≥17×时,TRFill能保持稳定的组装质量。

这项研究的意义不仅在于技术突破,更开辟了重复序列群体遗传学研究的新途径。通过分析29个番茄品种的亚端粒重复,研究人员发现这些序列的相似性模式与系统发育关系无关,而是遵循"局部区域"分布规律。这一发现可能普遍适用于真核生物各类串联重复序列,为理解着丝粒和端粒的进化机制提供了新视角。

研究团队特别指出,TRFill的应用前景广阔,尤其适合构建已有高质量参考基因组的物种泛基因组。随着PacBio Revio测序仪的普及,HiFi测序成本持续降低,该方法有望成为复杂重复区域研究的标准工具。未来工作将拓展算法对其他类型重复序列(如rDNA、转座子)的适用性,并探索在癌症基因组中检测重复区域结构变异的新应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号