
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Fast3VmrMLM:整合全基因组扫描与机器学习加速多基因性状基因挖掘与设计育种的高效算法
【字体: 大 中 小 】 时间:2025年05月25日 来源:Plant Communications 9.4
编辑推荐:
为解决多基因性状遗传解析与育种设计难题,华中农业大学张元明团队开发了Fast3VmrMLM算法,整合全基因组扫描与机器学习框架,显著提升基因检测功效。该研究在18K水稻数据中鉴定出211个已知基因(较FarmCPU多111%),构建包含21个关键基因的遗传网络,为作物设计育种提供新策略。成果发表于《Plant Communications》。
论文解读
在作物育种领域,多基因性状(如产量、抗病性)的遗传解析长期面临两大挑战:现有方法仅能检测强信号位点导致大量微效基因遗漏;缺乏高效算法处理大规模基因组数据。传统GWAS方法因忽略显性效应和复杂遗传背景,检测功效受限。随着生物大数据时代到来,如何整合机器学习与基因组学技术加速基因挖掘,成为作物遗传改良的关键科学问题。
华中农业大学张元明团队联合隆平高科研发团队,开发了Fast3VmrMLM算法。该研究通过压缩方差组分混合模型(3VmrMLM)整合加性、显性效应及其多基因背景,创新性地采用"全基因组扫描+机器学习"两阶段框架:第一阶段以宽松阈值(P<1×10-5)初筛潜在关联标记,第二阶段通过EM经验贝叶斯(EM empirical Bayes)机器学习筛选非零效应标记,最终经似然比检验确定显著关联位点(S2AMs)。研究利用18K水稻数据集(Wei et al., 2024)、玉米NC II设计群体及大豆结构变异数据验证算法效能,成果发表于《Plant Communications》。关键技术包括:1)基于PCG迭代的快速矩阵运算;2)Woodbury矩阵方程降维;3)单倍型分析模块Fast3VmrMLM-Hap;4)分子QTL检测模块Fast3VmrMLM-mQTL。
主要研究结果
模型比较验证算法优势
模拟研究表明,Fast3VmrMLM在加性-显性-上位性多基因背景模型中AUC值最高(图2A)。相比FarmCPU和EMMAX,新算法检测功效平均提升46.2-56.1%,尤其擅长识别显性效应(|d/a|≥5)和小效应变异(|a|≤0.05)(附表2-15)。在UK Biobank规模数据(50万个体×100万SNP)分析仅需5.43小时,内存消耗120.29Gb。
水稻基因挖掘新突破
在18K水稻数据重新分析中,Fast3VmrMLM鉴定出1555个显著关联位点,较FarmCPU多39.2%,其中333个为新发现位点。围绕±200kb窗口共挖掘359个已知基因(如OsSOC1、Ghd7.1),其中72.1%(259个)为独家发现(图4A)。单倍型分析模块Fast3VmrMLM-Hap额外检出685个稀有变异(MAF<2%),如LOC_Os02g57660(磷脂酰肌醇信号通路关键基因)。
设计育种关键基因网络
通过整合18K与1439水稻数据集,构建包含527对QTN互作(QQIs)的遗传网络,鉴定出21个枢纽基因(如Ghd8、sd1)。这些基因平均参与12.4对互作,其中Ghd8与Ghd7.1、Hd1的互作调控抽穗期并影响产量潜力(图4D)。基因组选择显示,基于所有S2AMs的预测精度达0.7443(水稻)-0.8492(玉米)。
跨物种验证应用
在玉米NC II设计中,新方法发现50个已知/候选基因(如调控株高的ZmGA3ox2);大豆结构变异分析中,Fast3VmrMLM-mQTL定位到Glyma.08G213100(油脂合成关键基因)。
结论与意义
该研究创立了"全基因组扫描+机器学习"的新范式,突破传统GWAS仅关注强信号位点的局限。算法创新体现在:1)压缩方差组分模型同时估计加性、显性效应;2)两阶段框架平衡检测功效与假阳性率;3)模块化设计扩展至单倍型与分子QTL分析。所构建的遗传网络为多基因性状设计育种提供靶点库,如通过回交将Ghd8等21个枢纽基因导入优良品种。研究推动作物育种进入"多基因精准设计"新阶段,为应对粮食安全挑战提供关键技术支撑。
生物通微信公众号
知名企业招聘