基因组浅层测序技术wholeskim在古DNA宏基因组分类注释中的应用与优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Molecular Ecology Resources 5.5

编辑推荐：

　　这篇研究论文介绍了一种创新性生物信息学工具wholeskim，该工具通过k-mer索引技术（k=34）有效利用低覆盖度全基因组浅层测序数据（genome skims），解决了古环境DNA（eDNA）宏基因组分析中参考数据库不完整的难题。相比传统组装流程Holi，新方法在保持较低假阳性率（0.27%）的同时，将模拟数据的注释准确率提升1.16倍，真实沉积古DNA（sedaDNA）数据注释量增加2.48倍，且计算时间缩短至0.32倍。研究还系统评估了参考数据库的基因组覆盖度（~1×为效益拐点）和分类学完整性对注释效果的影响。

基因组浅层测序技术革新古DNA分析

ABSTRACT

环境DNA（eDNA）测序技术面临参考数据库不完整和分析流程效率低下的双重挑战。wholeskim创新性地利用未组装的基因组浅层测序数据（genome skims），通过kmindex软件的Bloom filter数据结构索引数十亿k-mer，实现了对短读长古DNA的高效注释。测试显示其性能显著优于需要组装contig的传统流程Holi。

方法学突破

wholeskim工作流程包含两个核心模块：prep_indices构建参考数据库时，先过滤藻类、细菌等污染序列（中位去除率0.015%），再按k-mer复杂度分组索引；query_indices采用三步决策算法：计算查询读长与参考库的k-mer共享比例S_max/N_Q，设定阈值t_c=0.7和浮动区间Δ=0.1，最终基于NCBI分类体系进行最低共同祖先（LCA）注释。

性能优势验证

在1541个植物基因组浅层测序数据（PhyloNorway项目）的测试中：

信息保留：未组装数据包含的独特k-mer（k=31）数量是组装contig的10倍（图3A）
计算效率：索引11.8小时完成（内存54GB），比Holi快3倍；查询3.1小时（内存4.8GB），内存需求仅为Holi的4%
准确率：对9个测试物种的模拟数据，物种/属级正确注释率达20.2%（Holi为15.3%），假阳性率仅0.27%

数据库完整性影响

通过Vaccinium uliginosum的梯度实验发现：

基因组覆盖度：超过1×（约6亿reads）后注释提升效益递减（图6）
分类学覆盖：缺少近缘物种时（如Santalaceae科缺失），95%的Thesium alpinum读长无法注释，但假阳性率仍<0.2%

古DNA实证分析

三个挪威考古样本（4.2-0.7 ka）的测试显示：

wholeskim注释量达5.6%（Holi仅2.3%）
格陵兰200万年冻土样本中，87万条Betula读长显示出典型古DNA损伤模式（末端替换率31.2%）

技术局限与展望

虽然存在Bloom filter固有的哈希碰撞风险，但通过设定10^-5的读长比例阈值可有效过滤假阳性。未来可结合物种分布数据提升注释精度，或将wholeskim与Holi联用实现更完整的metagenomic assembly。这项技术为大规模环境DNA研究提供了更高效的分析路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号