基于岭回归框架的迁移学习优化基因组预测方法在作物育种中的应用研究

【字体: 时间:2025年07月31日 来源:The Plant Genome 3.8

编辑推荐:

  这篇研究创新性地将迁移学习(Transfer Learning)与岭回归(RR/ARR)框架相结合,应用于基因组选择(GS)领域。通过11个多环境小麦和水稻数据集验证,证明迁移学习方法(Transfer RR/ARR)相比传统方法平均提升22.962%的皮尔逊相关性(Cor)和5.757%的归一化均方根误差(NRMSE)预测精度,为解决植物育种中表型数据稀缺和基因-环境互作(G×E)难题提供了新思路。

  

基因组选择的挑战与机遇
基因组选择(GS)作为植物育种领域的革命性技术,通过机器学习模型利用参考群体的基因型和表型数据,能够仅凭基因型数据预测新群体的表型特征。然而其实践应用仍面临预测精度不足的挑战,主要源于实验观测中的噪声、基因-环境互作(G×E)以及目标环境数据稀缺等问题。

迁移学习的创新应用
研究团队开创性地将迁移学习引入GS领域,提出两种基于岭回归(RR)框架的迁移学习方法:Transfer RR和Transfer ARR(解析岭回归)。核心思想是从代理环境(proxy environment)学习β系数,通过调整目标环境(goal environment)的响应变量来增强预测模型。技术实现包含五个关键步骤:先在代理环境训练RR模型获取βproxy;接着用目标环境表型值减去Xgoalβproxy得到修正响应变量;然后训练新模型拟合修正后的变量;最终组合βproxy与γ系数形成迁移学习预测模型。

多环境数据集验证
研究采用11个真实多环境数据集(9个小麦、2个水稻),根据环境间品种共享比例分为两组:G1组(100%共享)和G2组(<100%共享)。通过双重交叉验证策略(外层10随机分区评估、内层超参数调优)系统评估模型性能。

显著提升的预测性能
在EYT_1数据集中,迁移学习方法将平均Cor从0.429提升至0.546(27.2%),NRMSE从0.064降至0.060(6.9%)。特别在遗传相似度高的G1组(如EYT_3数据集Flat5IR→FlatDrip转移),Cor提升达22.3%。跨数据集分析显示,迁移学习方法平均提升23.03%的Cor和4.5%的NRMSE,其中G1组改善更显著(27.00% vs G2组18.96%)。

环境相关性的关键影响
研究发现迁移学习效果高度依赖代理与目标环境的相关性。当共享品种比例低于9.6%(如Wheat_6数据集)时可能出现负迁移。这表明环境相似性(包括遗传背景、农艺管理和气候条件)是成功迁移的关键因素。

技术优势与局限
相比深度学习和集成方法,Transfer RR/ARR具有计算高效、避免过拟合的优势,特别适合高维基因组数据。但研究也揭示其局限性:依赖环境相关性、对非线性关系捕捉不足,这为后续研究指明了改进方向。

农业育种的实际意义
该方法使育种者能利用历史环境或相关试验站数据提升新品种预测精度,特别适用于目标种群环境(TPE)中测试稀疏的场景。例如在干旱易发区(目标环境),可借助灌溉试验站(代理环境)数据加速品种选育。

未来研究方向
作者建议探索三个方向:整合多组学数据(基因组、转录组、代谢组)提升预测维度;开发贝叶斯迁移学习框架处理不确定性;建立环境相似性量化指标以优化代理环境选择。这些发展将推动GS成为更可靠的育种决策工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号