双阶段数据驱动与过程模型耦合的高粱育种及产量预测：可解释人工智能与作物建模的创新整合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Plant Science》：A bi-stage data-driven process-based model for sorghum breeding and yield prediction: coupling explainable artificial intelligence and crop modeling

【字体：大中小】 时间：2026年01月08日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本综述提出了一种结合可解释人工智能（XAI）与作物建模的双阶段（bi-stage）数据驱动过程模型，用于高粱育种与产量预测。该模型通过模拟基因型（G）×环境（E）×管理（M）互作效应，实现了对高粱关键表型（如干物质重、株高、最终产量）的精准预测（相对均方根误差RRMSE为16%~19%），并有效筛选出四种高粱类型（G、F、DP、PS）中的优良杂交种，显著减少了对大规模田间试验的依赖，为作物遗传改良提供了高效、可解释的计算框架。

引言

植物育种是农业领域的核心任务，旨在提高作物产量、抗逆性及营养品质。随着全球人口爆炸性增长及气候变暖，开发高效的育种方法变得尤为紧迫。传统育种程序耗时耗力，通常需要多代选育才能获得性状稳定的商业品种。因此，能够快速预测表型的计算模型在植物育种中展现出巨大潜力。

高粱作为一种重要的谷类作物，具有多种类型：籽粒型（G）、饲草型（F）、兼用型（DP）和光周期敏感型（PS）。其中，PS型因其卓越的生物量产量潜力而备受关注。本研究旨在利用先进的计算建模技术，结合可解释人工智能与作物模型，构建一个双阶段混合模型，以加速高粱优良杂交种的选育过程。

材料与方法

数据来源

研究收集了美国爱荷华州三个研究农场2015年至2021年共七年的每小时气象数据（如气温、湿度、太阳辐射、降水、风速、蒸散量）和土壤数据（包括4层土壤温度和3层土壤湿度），并通过k近邻（kNN）方法对缺失值进行插补。管理数据包括种植日期、收获日期和种植密度等田间操作记录。表型数据涵盖收获期的最终产量、株高、倒伏评分，以及生长季内通过重复测量和破坏性取样获取的叶片干重、茎干重等指标。经过预处理后，共获得5149份高粱样本，涉及651个父本和131个母本杂交产生的1474个独特杂交种。

双阶段混合模型框架

模型整体遵循“基因型→ Trenotype → 表型”的路径，其中Trenotype（T）被定义为从基因型推导出的中间参数集合，是连接基因组数据与表型性状的桥梁。模型分为两个阶段：M_GT（从基因型到Trenotype）和M_TP（从Trenotype到表型）。

第一阶段（M_GT）：从基因到Trenotype的路径

该阶段模拟从基因组到功能蛋白的生物学过程，主要包括五个层次：

1.
SNP – QTL定位：从二进制基因型矩阵G中，通过选择器向量l^QTL、l^Dom和l^Eps分别指定数量性状位点（QTL）、显性效应和上位性效应位点。通过公式计算加性剂量（a_j）、显性指标（d_j）和上位性特征（e_jk），并拼接成QTL特征向量x^QTL。
2.
QTL – 基因映射：通过可训练权重向量w_i^QTL将QTL特征映射到基因得分（GS_i）。
3.
基因 - 多肽映射：基于“一个基因，一个多肽”假说，利用ReLU函数将基因得分转换为多肽得分（PoS_i）。
4.
多肽 - 蛋白质映射：通过权重矩阵w^poly将多肽得分汇总为蛋白质得分（PrS_k）。
5.
蛋白质折叠与互作：利用权重w^fold模拟蛋白质功能化过程，并通过Sigmoid函数缩放，最终输出Trenotype（T_m）。

第二阶段（M_TP）：从Trenotype到表型的路径

该阶段基于先前研究的数据驱动作物模型，将Trenotype与环境数据（土壤S、气象W）、管理数据（M）相结合，模拟高粱的每日生长动态。模型输出包括每小时整株干重（b_t）、株高（h_t）以及最终产量（y）。

模型校准与F1杂交种性能评估

将两阶段模型耦合为M^GTP，通过最小化组合相对均方根误差（cRRMSE）来校准参数。为评估模型性能，设置了传统表型选择（TS）方法作为基准，该方法基于亲本已有后代的平均表型进行评分。相比之下，本研究模型通过模拟F1杂交种的基因型（假设亲本为纯合），预测其在特定环境下的表型，从而推荐最优杂交组合。

结果

模型预测能力

模型在训练集和测试集上的cRRMSE分别达到12.6%和18.1%。五折交叉验证结果显示，模型在最终产量和株高预测上均稳定优于传统表型选择方法。生长曲线预测表明，模型能准确捕捉不同高粱类型的生长规律，如PS型在120天后株高增长趋于平稳，而饲草型（F）约在100天进入平台期，籽粒型（G）和兼用型（DP）则因籽粒灌浆导致株高更早停止生长。

优良杂交种筛选

针对不同高粱类型设定特定筛选标准：PS和F型关注第140天的生物量（茎叶干重），G型关注籽粒干重，DP型评估整体干重（茎叶籽粒总和）。模型成功筛选出各类别中的精英杂交种，其预测表型值（如PS型生物量达324.2克，G型籽粒重69.8克）均位于各自类型表型分布的右尾，显著优于群体平均水平。热图可视化清晰展示了不同亲本组合的产量潜力，便于快速识别优良杂交对。

基因型与环境的互作（G×E）分析

模型揭示了精英杂交种在不同环境条件下的表现存在显著变异。例如，在爱荷华州特定年份（如2018年格林菲尔德、2019年埃姆斯、2020年大部分地区）遭遇风暴时，部分PS型杂交种（如109×248）虽产量潜力高，但倒伏严重，表明其抗风能力较弱。而G型和DP型杂交种的优良个体因对环境因子（如籽粒发育关键期的气象条件）敏感，在不同地点表现各异，强调了环境定制化育种策略的重要性。

结论与讨论

本研究开发的双阶段混合模型成功将可解释人工智能与作物生理模型相结合，实现了对高粱生长和产量的精准预测。模型通过模拟基因型而非完全依赖实测基因数据，降低了育种中对大规模基因分型的依赖，为资源有限场景下的育种决策提供了强大工具。模型在预测不同高粱类型的表型及识别G×E互作方面表现出色，有助于加速优良杂交种的选育。

未来工作可考虑将模型扩展至 heterozygous 亲本及多代育种场景，并纳入重组事件，以提升其普适性。同时，增加地理环境和栽培措施的多样性，以及将该框架应用于其他作物，将进一步验证和拓展其应用潜力。通过田间试验验证模型预测的杂交种性能，将是推动该计算框架走向实际应用的关键步骤。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号