TEtrimmer:基于系统发育树与机器学习自动优化转座元件手动注释流程的新工具

【字体: 时间:2025年09月26日 来源:Nature Communications 15.7

编辑推荐:

  研究团队针对转座元件(TE)注释中手动流程繁琐、依赖专家经验的问题,开发了TEtrimmer工具。该工具整合系统发育树分析与DBSCAN机器学习算法,实现TE多序列比对(MSA)的自动聚类与修剪,显著提升完整TE元件的识别准确率。在六种真核生物和三个模拟基因组测试中,其性能均优于EDTA和RepeatModeler2,为基因组进化研究提供高效解决方案。

  
在基因组研究领域,转座元件(Transposable Elements, TEs)作为能够移动的重复DNA序列,长期以来被视为"垃圾DNA",但随着研究的深入,人们发现它们在基因调控、基因组进化以及生物发育和免疫中扮演关键角色。例如,人类基因组中约45%的序列由TE构成,斑马鱼和玉米中这一比例分别达到53%和85%。然而,由于TE序列具有高度多样性、频繁碎片化以及嵌套拷贝等复杂特征,准确注释TE始终是基因组学中的重大挑战。
目前TE注释主要依赖三种策略:基于公共数据库(如Repbase、Dfam)的比对方法、基于重复序列特征的de novo预测方法(如RECON、RepeatScout),以及基于结构特征的方法(如LTR_FINDER、TIR-Finder)。尽管已有EDTA、RepeatModeler2等整合工具,但其自动生成的TE文库仍存在完整性不足和假阳性率高的问题,难以达到手动注释的"金标准"质量。手动注释过程包括序列搜索、延伸、多序列比对(MSA)、聚类和修剪等多个步骤,需要专业人员投入大量时间,这成为许多研究团队面临的瓶颈。
为此,跨国研究团队在《Nature Communications》发表了题为"TEtrimmer: a tool to automate the manual curation of transposable elements"的研究成果,开发了一种能够自动化TE手动注释流程的工具TEtrimmer。该工具通过结合系统发育树分析和机器学习方法DBSCAN,实现了对TE序列的精准聚类,并采用滑动窗口策略自动修剪多序列比对中的低保守区域,显著提升了TE注释的效率和准确性。
研究团队采用多线程架构设计TEtrimmer,其输入可为任何de novo TE预测工具(如EDTA、RepeatModeler2)输出的TE共识序列库。工具首先对每个序列进行BLASTN搜索,获取基因组中的同源序列并生成多序列比对(MSA)。针对MSA中常包含多个TE变体的难点,TEtrimmer通过选择分歧序列列(某列主要核苷酸比例低于0.8的位点)构建系统发育树,基于相对分支距离矩阵进行DBSCAN聚类,有效分离不同TE变体。
针对TE序列常不完整的问题,TEtrimmer提供了序列末端延伸功能,通过迭代扩展序列末端直至覆盖推定TE边界。延伸后的MSA通常包含大量非TE序列形成的噪声区域,TEtrimmer通过remove_gap_columns函数去除间隙过多列,并采用crop_end_by_divergence函数(基于核苷酸比例)和crop_end_by_gap函数(基于间隙信息)进行行修剪,有效清除低保守区域。
TEtrimmer还提供了丰富的报告图表,包括MSA末端比对图、全MSA图谱、BLASTN命中分布图、自比对点阵图、ORF和PFAM结构域预测图以及输入输出序列对比图,帮助用户直观评估注释结果。此外,工具还配备图形用户界面(GUI)应用,支持用户对输出结果进行手动检查和改进,达到接近手动注释水平的TE文库质量。
关键技术方法包括:基于BLASTN的同源序列搜索(参数evalue 1e-40)、MAFFT多序列比对、IQ-TREE系统发育树构建、DBSCAN机器学习聚类(参数epsilon=0.1)、滑动窗口保守性分析以及PFAM蛋白结构域预测。测试使用了六种真核生物(大麦白粉病菌、果蝇、斑马鱼、水稻、玉米和人类)和三个模拟基因组(大小50-100 Mb,TE含量50-75%)的样本数据。
研究团队通过直接比较TE共识文库和全基因组TE注释两种方式对TEtrimmer进行性能评估。与EDTA和RepeatModeler2相比,TEtrimmer在大多数测试基因组中发现了更多完整(Perfect)的TE家族,特别是DNA转座子和LINE元件。在全基因组注释方面,TEtrimmer显示出更高的敏感性和精确度(F1分数>0.941),在转座元件分类准确性方面也有显著提升。
值得注意的是,TEtrimmer在处理低拷贝TE(如某些LTR反转座子)时效果有限,这主要是因为工具主要依赖TE的重复特性来改进共识文库。不过,通过GUI应用的手动检查和修正过程,用户可以较容易地恢复这些低拷贝TE。
与现有的半自动化TE注释工具EarlGrey和MCHelper相比,TEtrimmer在六个主要方面表现出优势:更先进的MSA聚类策略、有效的MSA清洗功能、选择性序列延伸算法、输出质量评价系统、全面的报告图表和用户友好的GUI应用,以及更高的计算效率(处理斑马鱼基因组仅需约3小时)。
研究表明,TEtrimmer能够有效自动化TE手动注释中的关键步骤,包括MSA聚类、清洗和TE边界定义,显著提高了TE注释的质量和效率。工具提供的详细报告图表和GUI应用使研究人员能够方便地检查和改进结果,填补了自动化TE注释与手动注释"金标准"之间的差距。
该研究的重要意义在于:TEtrimmer为基因组学研究提供了一个强大且用户友好的工具,能够自动完成TE手动注释过程,解决了准确注释真核基因组中这些重复DNA序列的重大挑战。通过整合MSA聚类、清洗和延伸的高级策略以及TE边界定义,TEtrimmer显著提升了TE注释的质量。工具提供的详细报告图和用户友好的GUI应用支持高效的结果检查和优化,使其即使对缺乏TE遗传学专业知识的研究人员也能轻松使用。对六个不同真核生物基因组的全面基准测试表明,TEtrimmer相比现有工具如RepeatModeler2和EDTA具有更先进的性能,特别是在识别完整(全长)TE方面。因此,TEtrimmer填补了自动化TE注释与手动注释金标准之间的空白,为基因组研究中的TE准确高效注释提供了可靠解决方案。
研究还发现,尽管结构识别方法(如EDTA)能有效检测具有明确结构特征的TE(如LTR或TIR),但对缺乏明显结构模体的元件(如LINE和SINE)效果较差;而基于重复性的方法(如RepeatModeler2)在寻找低拷贝或高度分歧的TE时往往表现不佳。TEtrimmer虽然主要依赖TE序列的重复特性来构建高质量共识序列,但通过提供的GUI应用,用户能够恢复低拷贝或高度分歧的TE,这为全面解析基因组中的TE组成提供了有力支持。
工具的另一个优势是其计算效率。TEtrimmer采用多线程设计,支持高性能计算(HPC)平台,提供了Conda、Docker和Singularity容器等多种安装选项,便于在各种计算环境中部署。详细的教程视频(可在https://tehub.org/en/Tutorials获取)帮助用户快速理解TEtrimmer的功能和使用方法。
总体而言,TEtrimmer的开发代表了转座元件注释领域的重要进展,为基因组学研究提供了更加高效、准确的TE分析工具,将促进对转座元件在基因组进化、基因调控和生物发育中功能的深入理解。随着高质量基因组数量的快速增长,TEtrimmer有望成为基因组注释流程中的重要组成部分,推动生命科学和健康医学研究的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号