kdiff：基于k-mer的无比对差异检测方法在癌症基因组学和端粒研究中的应用与优势

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《iScience》：Alignment-free detection of differences between sequencing datasets

【字体：大中小】 时间：2025年11月10日 来源：iScience 4.1

编辑推荐：

　　本刊推荐：研究人员为克服传统比对方法在参考基因组偏差、计算效率低和复杂区域分析受限等问题，开发了无比对工具kdiff。该工具通过k-mer丰度分析，成功检测癌症样本中的拷贝数变异（CNV）和酵母端粒降解，展现出与CNVkit相当准确性且速度提升7倍，在低质量参考基因组和低覆盖率数据中表现稳健，为基因组比较分析提供了高效新范式。

随着DNA测序技术的普及，比较生物样本的基因组差异已成为遗传变异检测、疾病机制解析等研究的核心任务。传统方法依赖将测序读数映射到参考基因组，但存在明显局限性：参考基因组不完整或错误组装会导致变异漏检，重复区域和复杂结构区域的映射偏差会扭曲结果，且计算成本随着测序深度增加而急剧上升。尤其在高重复序列区域（如端粒或片段重复区），读数无法唯一映射，使得拷贝数变异（CNV）分析变得困难。这些挑战促使科学家寻求不依赖比对的替代方案。

在此背景下，k-mer（长度为k的短序列）分析方法应运而生。这类方法通过直接比较样本间的k-mer分布来规避映射偏差，但现有工具大多需将差异k-mer重新映射回参考基因组才能解释生物学意义，这又部分抵消了无比对的优势。为此，佩特夏（Alessia Petescia）等人开发了kdiff工具，创新性地将k-mer丰度分析与参考基因组分区相结合，直接报告基因组窗口的差异状态，在保持无比对方法速度优势的同时提升结果可解释性。

为验证kdiff的性能，研究团队开展了两个案例研究。首先，在癌症基因组分析中，他们使用SEQC2联盟提供的三阴性乳腺癌患者数据（正常样本HCC1395BL和肿瘤样本HCC1395），比较kdiff与主流CNV检测工具CNVkit的表现。结果显示，两者在hg38参考基因组上的结果高度相关（相关系数0.78）。kdiff不仅准确识别了CNV区域，还避免了CNVkit因性别误判（将女性样本误判为男性）导致的性染色体归一化错误。在重复区域，kdiff表现出独特优势：当参考基因组存在片段重复时，kdiff为相同k-mer序列分配一致的比例值，反映平均拷贝数变化；而CNVkit受映射随机性影响，预测结果不稳定。在模拟实验中，当参考基因组存在重复扩张时，CNVkit无法检测增益，而kdiff仍能准确识别。

计算效率方面，kdiff显著优于比对方法。在全基因组分析中，kdiff的k-mer计数步骤仅需约2.5小时，而CNVkit所需的读数映射（bwa mem）耗时超过18小时。kdiff还表现出更强的跨基因组组装稳定性。当使用hg17、hg38和hs1三种人类基因组组装分析同一数据时，kdiff的结果一致性明显高于CNVkit。特别是在片段重复数量不同的组装间，kdiff的平均绝对误差（0.001）远低于CNVkit（0.08），证明其对参考基因组质量不敏感。

第二个案例聚焦端粒研究。团队采用BAL31-NGS协议，对酵母长柄酵母（Lodderomyces elongisporus）菌株CBS 5301进行纳米孔测序。BAL31核酸酶从双链末端降解DNA，理论上会导致染色体末端序列的代表性不足。由于端粒区域高度重复且参考基因组为相近菌株（NRRL-YB4239）的组装，这成为检验kdiff在低覆盖率、高噪声数据中性能的理想场景。结果显示，kdiff成功检测到染色体末端的梯度 depletion（耗竭）模式，且高酶浓度处理样本（b06）的耗竭程度更显著，与生物学预期一致。

技术方法上，研究主要依赖k-mer计数与窗口化分析。kdiff使用KMC3工具计算每个样本的k-mer频率，通过平均k-mer覆盖率对计数进行归一化，然后计算参考基因组每个k-mer位置的丰度比率（r_i）。基因组被划分为非重叠窗口，每个窗口的相对拷贝数（R(w)）定义为窗口内所有k-mer丰度比率的中位数。酵母实验通过纳米孔测序（Oxford Nanopore Technologies）获取控制组和BAL-31处理组的低覆盖率数据。

研究结果部分，拷贝数变异在癌症样本中的检测表明，kdiff与CNVkit在标准参考基因组上结果高度一致，但kdiff避免了性染色体归一化错误，并在重复区域提供更稳定的预测。kdiff显著快于CNVkit体现在其无需读长映射，直接处理k-mer数据，将分析时间从数小时缩短至分钟级。错误组装导致参考基因组工具出现伪影的模拟实验证实，kdiff在参考基因组存在插入、删除、重复坍塌或扩张时仍能可靠检测CNV，而CNVkit在重复扩张场景下失效。kdiff在不同基因组组装间预测结果更具稳健性比较显示，kdiff结果受组装质量影响小，尤其在片段重复区域一致性高。端粒识别实验成功验证kdiff在低覆盖率纳米孔数据中检测末端耗竭的模式，且信号强度与酶处理浓度正相关。

结论与讨论部分强调，kdiff为基因组差异检测提供了快速、稳健的无比对方案。其优势在于规避了映射偏差，降低对参考基因组质量的依赖，并显著提升计算效率。局限性包括无法检测参考基因组中不存在的新序列插入（如转座子或病毒），且参数选择（k值、窗口大小）需根据具体应用调整。尽管如此，kdiff在癌症基因组学、非模式生物研究和复杂基因组区域分析中展现出广泛应用前景，特别适用于参考基因组不完整或数据噪声高的场景。该研究发表于《iScience》，标志着无比对方法在实用化方向迈出重要一步。

联系信箱：

粤ICP备09063491号

热点排行