Imputef:多倍体与混池测序的等位基因频率插补新工具及其在基因组学中的应用

【字体: 时间:2025年10月23日 来源:BMC Genomics 3.7

编辑推荐:

  本研究针对多倍体与混池样本缺乏专用基因型插补工具的瓶颈,开发了基于连锁不平衡k最近邻(LD-kNN)算法的imputef工具。研究通过模拟与实证数据验证表明,该工具在1%~90%数据缺失率下均能实现高精度等位基因频率插补(平均绝对误差低至4.65%),且无需单倍型定相或参考面板支持。该成果显著提升了非模式物种基因组分析的统计效能,为作物育种和生态基因组学提供了关键技术支撑。

  
在基因组学技术飞速发展的今天,海量数据已远超现有生物信息学工具的处理能力。尤其对于多倍体物种(如马铃薯、紫花苜蓿等重要农作物)和混池测序样本,基因型插补工具的缺失成为亟待解决的瓶颈。这类样本通常缺乏单倍型定相信息、高密度基因型参考面板和染色体级别的参考基因组,而主流插补工具(如Beagle、fastPHASE)均针对二倍体设计,直接应用于多倍体或混池数据可能导致结果偏差。更关键的是,多倍体和混池的基因型数据以等位基因频率(连续值或基因型类别)形式存在,而非二倍体的二元基因型,这要求开发专门适配复杂数据特征的插补算法。
为此,澳大利亚农业维多利亚局的Jefferson Paril团队在《BMC Genomics》发表了题为“Imputef: imputation of polyploid genotype classes and allele frequencies”的软件文章,开发了一款无需富基因组资源支持的多倍体与混池样本插补工具。该研究通过整合连锁不平衡(LD)信息和改进的k最近邻(kNN)算法,实现了高精度、高效率的等位基因频率插补,为作物育种和生态基因组学研究提供了新解决方案。
关键技术方法概述
研究基于Rust语言开发imputef工具,支持VCF、SYNC和TSV三种基因型格式输入。核心算法包括:(1)等位基因频率连锁不平衡k最近邻(allele frequency LD-kNN)插补,通过计算样本间遗传距离(基于连锁位点的等位基因频率平均绝对差)和位点相关性(Pearson相关系数),加权估算缺失值;(2)均值插补(MVI)作为基线对比;(3)内置网格搜索优化功能,可针对每位点动态优化最小位点相关性和最大遗传距离阈值。评估使用真实数据集(如二倍体葡萄、四倍体果园草、大豆混池等),以平均绝对误差(MAE)和基因型类别一致性为精度指标。
研究结果
评估1:多场景插补精度验证
在二倍体葡萄(77样本,8,506位点)、四倍体果园草(51样本,50,281位点)和大豆混池(172池,39,636位点)数据集上,模拟1%~90%缺失率下的插补效果。结果显示:
  • 跨数据类型一致性:LD-kNN插补(AFIXED默认参数:最小位点相关性0.9、最大遗传距离0.1、最小连锁位点数20、最近邻数5)在各类数据中均表现优异(MAE:4.68%~19.72%),优于均值插补(MAE:6.57%~24.11%)。
  • 优化算法增益:位点特异性参数优化(AOPTIM)进一步降低误差(MAE:4.65%~19.78%),但计算成本显著增加。
  • 极端数据适应性:AFIXED在高缺失率(90%)下仍保持稳定,而对比工具LinkImpute因非缺失数据不足而失败。
等位基因频率误差分布规律
果园草和大豆混池数据中,插补误差在中等等位基因频率处最大(图2B、3B),且与位点内频率方差呈正相关(图2C、3C),符合群体遗传学理论预期。三组数据均呈现U型等位基因频率分布(附图S1-S3),反映中性进化背景下的遗传漂变特征,支持算法在自然种群中的普适性。
评估2:实证数据性能拓展
在6组多倍体数据集(包括紫花苜蓿、波西多尼亚海草、杨树等,样本数133-380,位点数17,514-1,526,917)中验证:
  • 跨基因组质量适用性:即使使用无序支架基因组,AFIXED和AOPTIM仍保持稳定精度(MAE:3%~15%)。全基因组LD估计较染色体/支架内估计精度更高,但计算资源需求大。
  • 大数据实践方案:针对Urochloa数据集(275样本,152万位点),提出两种优化策略:(1)AOPTIM结合模拟支架分区计算;(2)全局参数网格搜索。前者精度更优,凸显位点特异性优化的优势。
结论与意义
imputef填补了多倍体与混池样本专用插补工具的空白,其核心优势在于:
  1. 1.
    低资源依赖:无需单倍型定相、参考面板或有序基因组,适配非模式物种;
  2. 2.
    算法鲁棒性:通过LD-kNN框架整合遗传距离与位点相关性,在高缺失率(达90%)和U型频率分布下保持高精度;
  3. 3.
    灵活可扩展:提供参数优化模块及大数据分区计算策略,平衡精度与效率。
    研究为作物育种中低覆盖度混池测序的规模化应用提供技术支持,有望促进群体遗传学和生态基因组学对复杂物种的深入探索。未来工作将聚焦于LD估计效率优化和中断计算恢复功能,进一步提升工具实用性。
(注:文中所有专业术语均按原文格式保留大小写及上下标,如LD-kNN、MAE、VCF4.2/4.3;作者名Jefferson Paril及非英文字符均按原文呈现。)
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号