
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GPS数据融合策略提升机器学习驱动的基因组与表型选择准确性
【字体: 大 中 小 】 时间:2025年06月13日 来源:Plant Communications 9.4
编辑推荐:
为解决基因组选择(GS)和表型选择(PS)在复杂性状预测中精度不足、跨环境适应性差的问题,南京农业大学团队开发了GPS框架,通过数据融合策略整合基因组与表型数据,显著提升了玉米、大豆等作物的性状预测准确性。研究显示,Lasso_D模型较传统GS和PS方法分别提升53.4%和18.7%的预测精度,且在小样本和跨环境中表现稳健,为智能育种提供了新范式。
全球气候变化和人口增长对粮食安全提出严峻挑战,传统育种方法因周期长、环境依赖性高难以满足需求。基因组选择(GS)和表型选择(PS)虽能加速育种进程,但两者在复杂性状预测中存在明显局限:GS对低遗传力性状(如产量)预测精度不足,PS则难以捕捉遗传背景的复杂性。更棘手的是,基因型与环境互作(G×E)导致跨环境预测准确性骤降。如何整合多源数据、突破现有模型瓶颈,成为作物育种领域的核心难题。
南京农业大学作物遗传与种质改良国家重点实验室团队在《Plant Communications》发表研究,提出创新性解决方案——GPS框架(Genomic and Phenotypic Selection)。该研究系统评估了数据融合(Data fusion)、特征融合(Feature fusion)和结果融合(Result fusion)三种策略在六类模型(包括Lasso、LightGBM和DNNGP等)中的表现,并利用玉米、大豆、水稻和小麦四大作物的多组学数据验证其普适性。关键技术包括:基于Plink的SNP质控、Z-Score标准化表型数据、十折交叉验证评估模型,以及DEoptim算法优化权重分配。
研究结果
融合策略比较
数据融合策略以75.6%的平均准确率显著优于其他方法。Lasso_D模型表现最佳,其预测精度较最优GS模型(LightGBM)和PS模型(Lasso)分别提升53.4%和18.7%。SHAP分析揭示,模型能自适应分配基因组与表型特征的贡献权重,例如水稻粒重预测中SNP贡献更高,而大豆蛋白含量预测则更依赖表型特征。
模型稳健性验证
在样本量仅200时,Lasso_D仍保持较高精度(较其他模型提升7.3%-50.9%)。SNP密度实验表明,模型对标记数量变化不敏感,但当辅助性状与目标性状相关系数绝对值>0.5时,预测精度可提升12%-15%。
跨环境迁移能力
基于大豆SoyNAM数据集的多环境测试显示,整合多地点数据(ETL策略)使跨环境预测误差仅比同环境高0.3%。值得注意的是,表型多样性更丰富的环境(如2012_IN)训练出的模型泛化能力更强。
结论与意义
该研究首次系统论证了数据层融合在作物智能育种中的优越性:通过早期整合基因组与表型数据,GPS框架能同步捕捉遗传机制与生理过程关联,克服了传统多组学分析中特征丢失的缺陷。Lasso_D模型的强鲁棒性使其在资源有限的育种场景中极具应用价值,而跨环境预测能力的突破则为应对气候变化提供了工具支持。未来研究可进一步探索微环境特征提取和时序多组学数据融合,推动精准育种向动态化、知识驱动方向发展。
生物通微信公众号
知名企业招聘