
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于k-mer的Y染色体单倍群预测新方法Y-mer:从超低深度测序数据中解析人类父系遗传谱系
【字体: 大 中 小 】 时间:2025年08月13日 来源:Genome Biology 9.4
编辑推荐:
研究人员针对超低深度测序数据(ulcWGS)中Y染色体单倍群(HG)预测的难题,开发了基于k-mer的Y-mer方法。通过分析数百万个25-mer特征,该方法在0.001×测序深度下仍保持>95%准确率,成功应用于古DNA(aDNA)和无创产前筛查(NIPS)数据,为法医学和群体遗传学研究提供了新工具。
人类Y染色体因其复杂的重复序列结构,曾是基因组测序的最后"堡垒"。尽管近年来端粒到端粒(T2T)测序技术已实现Y染色体完整组装,但其长度变异(如Yq12区域可达两倍差异)和单倍群特异性结构变异仍给遗传分析带来挑战。传统SNV(单核苷酸变异)方法在超低深度测序数据(<0.1×)中表现不佳,而基于捕获的富集技术对高度降解的古代DNA(aDNA)或法医样本往往不适用。这一技术瓶颈严重限制了从珍贵样本中获取父系遗传信息的能力,例如在追溯欧亚草原带古代人群迁徙、或分析孕妇外周血中胎儿游离DNA(cfDNA)时面临困难。
针对这一难题,来自塔尔图大学(University of Tartu)和鲁汶大学的研究团队开发了创新工具Y-mer。该方法通过量化Y染色体特异性k-mer(25碱基序列)的丰度模式,在0.001×超低测序深度下仍能准确预测单倍群,相关成果发表于《Genome Biology》。研究人员构建了多层级预测模型:全球尺度模型(M21W)区分11个基础单倍群,欧洲特异性模型(M213E)解析22个亚分支,东北欧模型(M222NE)进一步细化23个近期分化谱系。关键发现包括:1)使用21个T2T组装Y染色体作为k-mer源即可达到>95%准确率;2)每个单倍群需20,000-50,000个特征k-mer;3)在30%污染率的模拟数据中仍保持稳健性。
关键技术方法包括:1)从21个长读长T2T组装(Hallast et al.数据)和222个短读长基因组(1000GP/EstBB队列)提取14M个25-mer;2)通过Mann-Whitney检验筛选单倍群特异性k-mer;3)建立距离模型比较测试样本与参考集的k-mer频率差异;4)使用110例独立样本(V110)进行验证,涵盖11个基础单倍群;5)在古丹麦Steppe人群(n=91)和中国/爱沙尼亚NIPS数据(n=441)中进行应用测试。
多群体数据中的距离模型
通过比较不同k-mer源(1Y/21Y/110Y)的性能发现:基于单个Y染色体(HG002)的模型准确率仅65%,而21Y和110Y模型在0.001×深度时准确率均>95%。

k-mer数量优化
测试10K-100K k-mer/单倍群的模型显示:20K k-mer即可在>0.0005×深度保持稳定性能,增加至50K未显著提升准确率。

古DNA测试
在欧亚草原古代样本中,基础模型M21W准确率达94%,但区域模型M222NE对稀有分支(如C3、R1b16)存在误判。层级化策略(先基础单倍群再亚型)可将准确率提升至>80%。
NIPS数据应用
从0.0009×深度的中国cfDNA数据中成功预测单倍群频率谱,O2a2(ISOGG命名)频率与群体预期一致,证实方法在极低深度数据的实用性。
该研究突破性地证明k-mer丰度模式可替代传统SNV分析,实现超低深度数据的Y染色体谱系推断。提出的层级预测策略(全局→区域模型)有效平衡分辨率与准确性,特别适用于:1)古代样本中父系源流的快速筛查;2)法医混合样本的男性成分识别;3)NIPS中胎儿父系 ancestry 评估。未来通过整合着丝粒周边区域k-mer和泛基因组图谱,该方法有望扩展至常染色体 ancestry 分析。研究提供的开源工具包(GitHub/bioinfo-ut/Y-mer)和预训练模型(Zenodo.15089783)将推动相关领域方法学革新。
生物通微信公众号
知名企业招聘