AdDeam:一种快速可扩展的古DNA损伤模式估计与聚类工具及其在古微生物组研究中的应用

【字体: 时间:2025年07月20日 来源:Bioinformatics 4.4

编辑推荐:

  针对古DNA研究中损伤模式分析繁琐且缺乏高效聚类工具的瓶颈,丹麦技术大学与拉瓦尔大学团队开发了AdDeam工具。该工具通过GMM算法实现损伤模式快速聚类,可区分UDG处理样本、不同时期标本的特异性损伤,并能有效识别古微生物组中的现代污染contig。其双模式设计(经典模式与meta模式)为古DNA认证和大规模分析提供了标准化框架,相关成果发表于《Bioinformatics》。

  

在探索人类演化史和古代微生物组的过程中,古DNA(aDNA)研究面临着严峻的认证挑战。由于年代久远,aDNA分子会发生特征性化学修饰——主要表现为片段末端C→T和G→A的碱基替换,这种"损伤模式"成为鉴别古代样本真伪的关键标志。然而现有工具如mapDamage、PMDtools等仅能生成单一参考基因组的损伤图谱,面对海量样本或宏基因组数据时,研究人员不得不人工比对数百张损伤图谱,既低效又易出错。更棘手的是,在古微生物组研究中,如何快速区分来自不同时期或处理方式(如UDG处理)的样本,以及识别组装contig中的现代污染物,成为制约研究进展的技术瓶颈。

丹麦技术大学(Technical University of Denmark)健康技术系生物信息学部的Louis Kraft团队开发了AdDeam这一创新工具。该工具通过高斯混合模型(Gaussian Mixture Model, GMM)算法实现损伤模式的智能聚类,不仅能自动区分不同保存状态的样本,还可识别古微生物组中的现代污染序列,相关研究成果发表在《Bioinformatics》上。这项工作的核心价值在于:首次将高效的损伤模式计算与智能聚类相结合,为大规模古DNA研究提供了标准化分析框架。

研究团队采用了两项关键技术:1)基于C++开发的bam2prof程序,通过迭代收敛算法快速生成损伤图谱(记录5'端前5位和3'端前5位的C→T/G→A替换频率);2)基于scikit-learn的GMM聚类模块,将log转换后的替换频率向量进行多维度聚类。实验数据包括:模拟数据集(含无损伤、中度损伤、高度损伤三类样本)和真实古微生物组数据(49个牙结石样本,映射到4种核心口腔菌群基因组)。

研究结果通过四个维度得到验证:

  1. 模拟数据测试显示,当设定k=3时,AdDeam能100%准确区分预设的三类损伤水平,其PCA可视化呈现完美的簇状分布

  2. 经典模式分析49个真实样本时,k=4聚类结果清晰分离出:全UDG处理组(Cluster 1)、现代非UDG样本(Cluster 2)、旧石器时代中/高损伤样本(Cluster 3-4)

  3. meta模式分析共组装contig时,k=3聚类准确识别出现代污染contig(99%现代reads)、古代contig(>97%古代reads)及混合型contig

  4. 性能测试表明,处理含多参考序列的BAM文件时,内存消耗<400MB,运行时间<2.5分钟。

这项研究的突破性在于:首次实现了古DNA损伤模式的自动化聚类分析,其双工作模式(经典模式处理单一参考样本,meta模式分析宏基因组contig)覆盖了古基因组学的主要应用场景。特别值得注意的是,工具对UDG处理样本的识别精度达到近乎完美,这对确保下游分析可靠性至关重要。在方法学层面,采用对数转换和球形协方差GMM的策略,有效放大了低损伤信号差异,解决了传统方法难以区分现代污染物的问题。

该工具的推出将显著提升古DNA研究的可重复性:一方面,通过标准化损伤模式比较流程,减少人工判读的主观偏差;另一方面,其可视化输出(含PCA图和代表性损伤模式)为多样本研究提供了直观的质量控制指标。未来,随着百万年级古样本(如Kj?r等2022年报道的格陵兰200万年古DNA)研究的深入,AdDeam在解析极端古老DNA损伤特征方面将展现更大价值。研究团队特别指出,当前版本采用的球形协方差假设虽简化了计算,但可能忽略位置依赖性特征,这为后续开发基于动态时间规整(DTW)的改进算法指明了方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号