《Molecular Ecology Resources》:EasyCen: A Lightweight Framework for Centromere Localisation and Repeat-Organisation Profiling in Telomere-to-Telomere Genomes
编辑推荐:
由于着丝粒重复序列快速演化且缺乏保守序列特征,在端粒到端粒(T2T)基因组中准确识别着丝粒仍具挑战。本研究中,研究人员提出了EasyCen,一种基于序列的轻量级框架,用于跨真核生物物种进行着丝粒识别与重复序列结构特征分析。与依赖重复序列注释或同源性的方法不同,
由于着丝粒重复序列快速演化且缺乏保守序列特征,在端粒到端粒(T2T)基因组中准确识别着丝粒仍具挑战。本研究中,研究人员提出了EasyCen,一种基于序列的轻量级框架,用于跨真核生物物种进行着丝粒识别与重复序列结构特征分析。与依赖重复序列注释或同源性的方法不同,EasyCen依据重复DNA的重复位置特征来识别着丝粒。除着丝粒定位外,EasyCen还整合了重复对特征分析模块,用于内部重复组织的探索性表征。在拟南芥(Arabidopsis thaliana)和小鼠(Mus musculus)中的基准测试显示,该方法准确性较高(通常与已发表注释的坐标重叠度>85%),且运行时间显著缩短。跨物种分析发现,小鼠和人类着丝粒中存在类似“串珠状”的重复模式,并与GC和CpG富集的亚结构域相关。EasyCen无需预先存在的重复序列数据库即可有效运行,因而特别适用于大型、重复丰富或非模式生物基因组。进一步分析表明,尽管序列快速更替,着丝粒重复序列的某些组织特征可能在不同真核生物谱系中反复出现。
随着长读长测序技术的发展,端粒到端粒(T2T)基因组组装在包括人类、小鼠、拟南芥及多种非模式物种在内的真核生物中取得了快速进展。然而,着丝粒主要由快速进化的串联重复序列和高阶重复(HOR)阵列组成,其序列组成、周期性和染色体分布具有高度的物种特异性和染色体间异质性,因此准确识别并解析其精细结构仍然困难。现有方法多依赖重复序列注释或辅助表观遗传数据,存在计算成本高、依赖先验文库、难以同时完成定位与结构刻画等局限。为此,研究人员开发了EasyCen,一种基于k-mer位置特征的全序列驱动型计算框架,旨在无需重复注释或实验数据的情况下,实现T2T基因组中着丝粒的从头识别和重复序列组织结构分析。
研究人员采用的主要技术方法为:EasyCen基于基因组序列的规范k-mer位置分布,通过周期性、广度和聚类性三个指标筛选候选着丝粒k-mer;采用高斯近似进行边界精修;并构建重复对位置共现矩阵以刻画内部重复层次、均质化区域和组成转变。验证分析涉及拟南芥、小鼠、人类、玉米、水稻、大黄鱼、檀香和绿藻等物种的T2T或染色体水平基因组。
研究结果按照论文结构可概括如下。“EasyCen工作流概述”部分将方法分为三个阶段:首先对基因组序列进行规范k-mer分解和基于丰度与熵的过滤,利用周期性(相邻重复间距在主导重复区间±5 bp内的比例)、广度(携带该k-mer的染色体比例)和聚类性(位置集中程度)识别候选着丝粒k-mer;随后通过加权k-mer密度剖面、GC含量、CpG密度和唯一k-mer比例等特征实现边界可视化与优化;最后通过重复对组合模型将位置关系转化为类Hi-C共现矩阵,用于探索性表征内部重复组织。该工作流可在数小时内完成大型哺乳动物基因组分析。
“与现有方法的基准比较”部分以拟南芥和小鼠基因组为例,评价了EasyCen的性能。在拟南芥中,EasyCen运行时间约为8分钟,较CentIER和RepeatOBserver显著更快,预测坐标与已发表注释高度一致。在小鼠T2T基因组中,EasyCen完成整个分析仅需约51分钟,而QuarTeT耗时约22.5小时,CentIER近七天;RepeatOBserver因端粒重复敏感性产生约1.25 Mb的系统偏移,QuarTeT的X染色体预测偏离已知注释。此外,在玉米、水稻、大黄鱼、檀香和绿藻等多个物种中,EasyCen预测结果均与已发表注释或细胞学标志显著重叠。
“基于重复对的结构刻画准确性与稳健性”部分显示,EasyCen生成的位置共现矩阵在拟南芥五个着丝粒的边界位置和大尺度结构上与基于相似性的MotDotPlot点图结果高度一致,并能检测出传统序列比对方法不易显现的局部组成变化和结构域边界,这表明位置共现分析在保留结构信息的同时可以不依赖序列同源性。
“小鼠与人类着丝粒中的特殊重复组织模式”部分发现,小鼠12、15、16、19号染色体以及人类15和21号染色体的着丝粒区域存在重复富集与非重复间隔交替排布的“串珠状”结构。这些区域富集GC和CpG岛,提示局部序列组成可能与哺乳动物着丝粒的结构异质性相关。
“重复组织与着丝粒身份”部分认为,着丝粒身份可能由重复组织结构而非保守序列基序维持。周期性、广度和聚类性反映了扩增与均质化的涌现特征,在不同物种中反复出现,提示染色质水平的约束对着丝粒维持具有重要作用。
研究结论指出,EasyCen是一种无需注释的轻量级着丝粒识别与重复序列组织结构刻画工具,结合k-mer特征与重复对分析,能够在无需先验注释的情况下完成精确的边界检测并揭示内部组织结构。在植物和哺乳动物基因组中的基准测试表明该方法具有高准确性和计算效率,尤其适用于大型基因组。EasyCen在小鼠和人类着丝粒中发现的“串珠状”重复模式提示序列组成与着丝粒结构异质性之间可能存在关联。随着T2T组装的不断增多,EasyCen为着丝粒的比较与进化研究提供了实用工具,并为理解重复序列组织如何驱动着丝粒进化和塑造真核生物染色体结构提供了新的分析框架。