长读长测序工具TRsv实现基因组串联重复变异、结构变异和短插入缺失的同步检测

【字体: 时间:2025年08月22日 来源:Genome Biology 9.4

编辑推荐:

  日本国立遗传学研究所等机构的研究人员开发出一款创新性的计算工具。这个名为TRsv的工具能够同时检测TR-CNVs、SVs和indels,并准确区分TR区域内的真正TR变异与非TR插入。

  

基因组变异研究领域长期面临一个重要挑战:串联重复拷贝数变异(TR-CNVs)、结构变异(SVs)和短插入缺失(indels)往往被混淆处理,缺乏能够同时检测和区分这些变异的工具。

尽管串联重复区域仅占人类基因组的3%,但其高突变率使得这些区域成为基因组变异的热点。更为关键的是,TR-CNVs与50多种神经退行性疾病、精神分裂症、自闭症和癌症等多种疾病密切相关,同时还调控着邻近基因的表达和蛋白质功能。

然而,现有的短读长测序技术在检测这些变异时存在明显局限,特别是在重复区域内的变异检测上表现不佳。

随着长读长测序技术的兴起,PacBio HiFi和ONT Nanopore等平台有望解决这一问题。

不过,现有工具在分析长读长数据时仍存在两个主要问题:一是同一等位基因在TR区域内的变异会被检测为多个插入或缺失;二是无法有效区分真正TR变异与非TR插入(如转座元件)。这些问题严重影响了变异检测的准确性和后续研究的可靠性。

为了解决这些挑战,日本国立遗传学研究所等机构的研究人员开发出一款创新性的计算工具。这个名为TRsv的工具能够同时检测TR-CNVs、SVs和indels,并准确区分TR区域内的真正TR变异与非TR插入。

这项研究成果于8月20日发表在《Genome Biology》杂志上。

TRsv算法通过整合同一读长中TR区域内的多个片段化变异,检查插入序列与重复单元的同源性,有效解决了现有工具的局限性。

研究人员发现,TR-CNVs显著富集于人类快速进化区域(HAQER)和DNA损伤检查点激酶(ATM/ATR)结合位点,表明这些区域既是突变热点也是修复重点。

研究结果显示,71个DNA结合蛋白(如MCM2/3/5/7、XRCC3等)特异性结合TR-CNV区域,提示这些可变TR位点具有特殊调控功能。

通过对59个RNA-seq样本的分析,研究人员还鉴定出104个表达数量性状位点(eTR-CNVs),这些位点显著富集于精神分裂症、注意力缺陷多动障碍等疾病相关基因区域。

讨论部分强调,这项研究首次在群体规模上利用长读长数据揭示了TR-CNVs的结构特征。研究发现81%的TR-CNVs呈现整数倍重复单元拷贝数变化,支持DNA复制压力导致重复单元增减的机制。

特别值得注意的是,与重复扩增疾病相关的三核苷酸重复(如CGG/GGC/GCG)在CDS和5' UTR区域的富集程度高于其他重复类型,这可能是由于这些区域本身富含此类重复而非选择压力所致。

研究还发现,高频率TR-CNVs更可能参与转录调控,特别是与RNA加工因子(如RBFOX2、TARDBP)结合的位点。

这项研究的创新之处在于开发了首个能够同时准确检测TR-CNVs、SVs和indels的工具TRsv,解决了基因组变异研究中的关键技术瓶颈。

通过大规模数据分析,不仅提供了高质量的人类TR-CNV参考数据集,还深入揭示了TR-CNVs在基因组进化、DNA损伤修复和基因调控中的重要作用。

这些发现为了解TR-CNVs在复杂疾病中的作用机制提供了新视角,特别是为寻找GWAS研究中"缺失遗传力"的潜在来源提供了重要线索。未来,随着更多长读长数据的产生和应用,TRsv将成为研究基因组变异与疾病关联的强有力工具。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号