基于k-mer的全基因组关联分析(k-mer-based GWAS/KMERIA)方法赋能多倍体作物基因挖掘

《Nature Genetics》：A k-mer-based genome-wide association study approach empowering gene mining in polyploids

【字体：大中小】 时间：2026年06月13日 来源：Nature Genetics 29

编辑推荐：

　　摘要：传统全基因组关联研究(genome-wide association study, GWAS)在多倍体复杂基因组中受限于基因分型模糊及等位基因剂量(allele dosage)复杂性。本研究提出KMERIA，一种专为应对上述挑战而设计的k-mer-bas

摘要：传统全基因组关联研究(genome-wide association study, GWAS)在多倍体复杂基因组中受限于基因分型模糊及等位基因剂量(allele dosage)复杂性。本研究提出KMERIA，一种专为应对上述挑战而设计的k-mer-based框架，可在复杂多倍体基因组中实现高效基因分型与稳健关联作图中。研究人员通过模拟与实证数据集的严格基准测试证明，KMERIA在准确率和统计效能(statistical power)上均优于现有方法。研究人员将KMERIA应用于290份野生甘蔗(Saccharum spontaneum)种质并结合15份材料的图泛基因组(graph-based pangenome)以捕获结构变异(structural variation, SV)，鉴定到调控蔗糖生物合成的新基因(SsMGT)及分蘖(tiller number, TN)相关基因(如SsERF14、SsNGA5、SsNAC、SsARF8、SsLOG和SsSCR)。这些发现阐明了产量相关性状的遗传架构，并为甘蔗育种提供了可操作靶点。综上，KMERIA填补了多倍体基因组学的方法学空白，而图泛基因组的整合为解析复杂架构作物的基因型-表型关系提供了强有力框架。

论文解读：《Nature Genetics》——A k-mer-based genome-wide association study approach empowering gene mining in polyploids

【研究背景与意义】

多倍体(polyploid)是众多栽培作物的典型特征（约75%驯化植物如小麦、马铃薯、棉花和甘蔗均为多倍体），其因具有器官增大、抗逆性强等优势对作物改良至关重要。然而传统基于SNP的全基因组关联研究(genome-wide association study, GWAS)主要针对二倍体设计，难以处理多倍体中同源染色体高度相似导致的短读段多重比对(multimapping)、参考基因组偏好(reference bias)及等位基因剂量(allele dosage)推断困难等问题；现有针对多倍体的工具如GWASpoly虽考虑剂量但因依赖先期SNP检出，面临计算量大且变异检测本身在多倍体中误差高的瓶颈。k-mer来源于全基因组测序(whole-genome resequencing, WGS)数据，可不依赖参考基因组直接捕获单核苷酸多态性(single-nucleotide polymorphism, SNP)、插入缺失(insertion-deletion, InDel)和结构变异(structural variation, SV)，但已有k-mer GWAS未考虑多倍体剂量效应。因此，研究人员开发了专为多倍体设计的k-mer GWAS新方法KMERIA，并将其与图泛基因组(graph-based pangenome)整合，以野生甘蔗(Saccharum spontaneum，染色体倍数4–16×)为模型开展研究，旨在突破多倍体GWAS瓶颈并实现农艺性状关键基因的挖掘。该研究发表于《Nature Genetics》。

【主要关键技术方法】

研究人员收集290份野生甘蔗(Saccharum spontaneum)重测序样本及15份材料用于图泛基因组构建，另使用六倍体甘薯、四倍体马铃薯、四倍体紫花苜蓿、四倍体拟南芥及二倍体水稻公开重测序数据集进行跨倍性验证。关键技术包括：①利用KMC3进行全基因组k-mer计数(k-mer counting)，构建群体水平k-mer丰度矩阵并以倍性感知(ploidy-aware)方式进行深度校正与分位数标准化编码为连续等位基因剂量；②采用线性混合模型(linear mixed model, LMM)以随机抽样0.1% k-mer估算群体结构与亲缘关系(kinship)，进行k-mer与性状关联检验(bimbamAsso模块)；③使用Benjamini–Hochberg错误发现率(false discovery rate, FDR)及基于有效独立检验数(M_eff=n_k/k)的修正Bonferroni法进行多重检验校正；④基于Minigraph-Cactus构建含15份单倍型基因组的甘蔗图泛基因组(graph pangenome)，通过气泡算法(bubble popping algorithm)识别SV(≥50 bp)并将显著关联k-mer比对至图泛基因组进行精确定位；⑤通过模拟表型(考虑多倍体加性效应与遗传力h²)评估统计效能与FDR，并与GEMMA、kmersGWAS及GWASpoly进行基准比较。

【研究结果】

Challenges in applying GWAS to polyploids（多倍体GWAS面临的挑战）

研究人员利用甘蔗杂交种POJ2878单倍型解析基因组模拟发现，仅43.08%读段为高质比对且其中50.51%错配，说明短读段多重比对导致传统比对与GATK等变异检出在多倍体中误差大；多倍体基因型推断随倍性增加呈指数级复杂，测序深度不足时等位基因剂量易误判，证实传统方法不适用于高多倍体。

Algorithm overview of KMERIA and validation datasets（KMERIA算法概要与验证数据集）

KMERIA流程含五步：①k-mer计数；②群体k-mer基因型矩阵构建(ploidy-aware k-way合并)；③矩阵剪枝——深度校正、剔除缺失率>20%稀有k-mer及极端覆盖重复序列，再分位数标准化至连续剂量尺度(0–2)；④LMM关联检验(纳入PCA校正群体分层及kinship矩阵)；⑤后GWAS双校正及将显著k-mer相关读段比对至图泛基因组定位。研究人员在多种倍性作物实证数据中验证了KMERIA广泛适用性。

Statistical power and FDR（统计效能与错误发现率）

在六倍体甘薯模拟群体中(h²=50%/80%，10或100个QTL)，KMERIA统计效能显著高于GEMMA、kmersGWAS和GWASpoly，且FDR更低；k-mer出现次数(k-mer occurrence count, KOC)可反映多倍体等位基因剂量；PCA基于KOC矩阵所得群体聚类与已知分组高度吻合(Pearson R=0.966)；KMERIA与GWASpoly检出位点显著相关(R=0.54, P=0.00031)且可额外检测到GWASpoly遗漏信号。

Factors influencing statistical power of KMERIA（影响KMERIA统计效能的因素）

仅抽样0.1% k-mer即可保留核心群体结构信息(R=0.99)；k-mer长度31 bp时FDR最低，较大k-mer增强特异性；缺失率升高致效能下降；群体规模增大显著提升检出力(100→600个体)；计算效率方面，KMERIA较GATK(-ploidy)耗时缩减约1/430，关联模块较GEMMA快约1/10、较GWASpoly快约1/27且内存占用更低。

Application and validation of KMERIA in GWAS across crops with different ploidy levels（KMERIA在不同倍性作物GWAS中的应用与验证）

在二倍体水稻中成功重现蜡质基因(Waxy)控制直链淀粉含量且信号更强；四倍体紫花苜蓿中新检出茎叶比相关QTL含MsTUB5、KINESIN-like及MsKEG；四倍体马铃薯中重现StCDF1等已知QTL并新发现StINV3、StBGLu及薯肉颜色新QTL(chr4的StAUR、chr9的St3GT)；六倍体甘薯中重现IbFbox并新发现IbCUC3；在高多倍体栽培甘蔗中传统SNP-GWAS与kmersGWAS无显著信号而KMERIA检出多个农艺性状QTL，证明KMERIA适用于各倍性尤其是高多倍体。

Construction of S. spontaneum graph pangenome（野生甘蔗图泛基因组构建）

基于290份系统发育选14份代表性野生甘蔗(倍性8–11×)及参考基因组Sspon82-114构建图泛基因组，含~3 Gb序列、142,571,025节点、193,033,606边，非参考节点占2,029 Mb；检出277,133个SV(42.7%双等位、57.3%多等位)，影响63.1%参考基因，BUSCO完整性平均99.4%，LAI 14.47–16.43，达到参考级质量。

Identification of genes associated with agronomic traits in wild sugarcane（野生甘蔗农艺性状关联基因鉴定）

对290份野生甘蔗进行KMERIA GWAS：表观纯度(apparent purity, AP)显著关联位点位于chr6含镁转运蛋白基因SsMGT，其上游存在~7.9 kb SV及7 bp InDel，关联k-mer剂量与AP显著负相关(R=-0.3, P=2.0×10^-7)；分蘖数(tiller number, TN)最显著信号位于chr1含乙烯响应因子基因SsERF14(OsEATB直系同源)，剂量与TN正相关(R=0.38, P=4.6×10^-11)，同时鉴定SsNGA5、SsNAC、SsARF8、SsLOG和SsSCR等已知分蘖调控基因并在根和分蘖组织高表达，水稻过表达SsNGA5使分蘖数降低30.6%(P=0.025)；图泛基因组使关联k-mer可定位率较线性参考提升11.6个百分点，成功恢复非参考区序列。

【讨论与结论】

传统基于比对的SNP-GWAS在多倍体中面临同源多倍体基因组分型模糊及参考偏差限制；KMERIA核心创新为绕过传统基因分型流程，直接以k-mer拷贝数变异(copy number variation, CNV)/出现次数(k-mer occurrence count, KOC)量化等位基因剂量(allele dosage)，克服参考基因组依赖并减少偏差。KMERIA可捕获SV及复杂等位变异，结合图泛基因组下游分析可有效定位原本无法比对(unique mapping)的k-mer（如SsMGT启动子区7.9 kb SV），弥补SNP中心方法的缺失遗传力('missing heritability')问题。图泛基因组较单一或多参考提升k-mer锚定率(95.10% vs 81.2%–84.6%单参考、98.33%多参考)，且提供统一坐标解析同源染色体(homeolog)身份，利于剂量敏感解读；显著k-mer按唯一比对、重复元件、同源多倍体重叠(homeologous multimapping，保留为剂量信号)及基因家族多拷贝分类诠释。结论：KMERIA为复杂多倍体群体GWAS提供高效框架，结合图泛基因组可精准定位农艺性状遗传位点，未来整合更丰富泛基因组资源与完善k-mer至变异映射算法将进一步提升其在多倍体复杂性状遗传解析中的应用价值。

热点排行