历史数据的使用有助于在公共水稻育种项目中更早地筛选出具有潜力的候选品种
《Crop Science》:Use of historical data improves early selection in a public rice breeding program
【字体:
大
中
小
】
时间:2025年12月21日
来源:Crop Science 1.9
编辑推荐:
植物育种早期选择准确性提升策略:利用多环境历史数据分析发现,整合五年内多环境数据(PS5)较单环境分析(PS0)能显著提高遗传增益预测能力(PA达0.55),但 genotype by environment interaction(GE)建模对PA影响不一致。研究证实公共育种项目通过历史数据共享和跨环境模型构建可有效缩短育种周期。
本研究聚焦于如何通过整合育种计划的历史数据提升早期选种效率,特别针对水稻育种中的亲本选择和株系 advancement(品种审定)两大核心目标展开分析。研究以乌拉圭国家农业研究机构的IRBP水稻育种项目为案例,该计划通过20年累计超过5万份田间试验数据,形成了包含不同生态区、种植时间及试验重复的完整数据集,为验证多环境分析策略提供了理想样本。
**研究背景与核心问题**
现代育种实践中,亲本选择通常在育种周期的中后期进行(第4-5年),以确保足够的环境数据支撑决策。但早期选择可显著缩短育种周期,加速遗传增益积累。然而,早期阶段的数据局限性(如环境样本不足、数据量有限)导致选种准确性受限。本研究旨在验证利用历史多环境数据的分析策略,能否在早期阶段(如E1阶段)提升选种精度,同时评估环境互作(GE)建模的必要性。
**数据架构与处理策略**
研究整合了2003-2019年间共527项田间试验数据,覆盖两个亚种(热带爪哇型TRJ和印度型IND)的9888个株系。试验设计采用随机完全区组排列,每个试验包含2-4次重复,数据呈现显著的不平衡性:IND亚种年评估株系数从200(2010)波动至1853(2011),而TRJ亚种年评估量相对稳定。数据处理采用三阶段筛选机制:
1. **数据清洗**:剔除遗传多样性不足(表型遗传率<0.3)的试验单元
2. **环境定义**:将试验环境细分为年份、地点、种植时间三重维度,其中种植时间进一步划分为早、中早、中晚、晚四个时序类别
3. **参考数据集构建**:筛选出环境间共享至少3个株系、平均共享26个株系的核心试验组,形成包含38个环境、17年连续观测的基准数据集(REF)
**预测策略体系构建**
研究设计了五类预测策略(PS)形成对比组:
- **PS0**:单试验独立建模(527个模型)
- **PS1**:单年度多试验联合建模(14年模型)
- **PS1GE**:PS1基础上增加GE交互项
- **PS5**:五年连续试验联合建模(13个5年窗口)
- **PS5GE**:PS5基础上增加GE交互项
建模框架采用混合线性模型,通过数值亲缘矩阵(NRM)捕捉遗传关联,同时考虑试验设计中的区组效应和随机残差。值得注意的是,所有模型均未引入基因组数据,重点考察表型数据的挖掘潜力。
**核心发现与机制解析**
1. **数据聚合效应**:PS5(五年数据联合建模)相比PS0(单试验)的遗传方差估计误差降低42%-68%,环境方差估计标准差下降31%-56%。这表明整合时间跨度为5年的数据可有效缓解环境变异的干扰。
2. **GE建模的悖论**:在单年度分析(PS1/PS5)中,GE项对预测能力(PA)提升有限(TRJ亚种PA均值差异仅0.03,IND亚种0.02),但在五年跨度联合分析(PS5)中,GE项使残差方差降低19%-24%。这揭示GE建模的效益存在阈值效应——当环境多样性充分满足时,GE项能有效分离表型变异中的环境干扰。
3. **策略效能排序**:对于亲本选择(TRJ亚种),PS5(五年数据联合建模)PA均值达0.55,显著优于PS0(0.44)但略低于PS1(0.51)。而对于品种审定(IND亚种),PS1(单年度联合建模)PA均值(0.65)已接近PS5GE(0.62)水平,显示不同目标对数据需求的差异性。
4. **历史数据价值**:PS5相比PS0的PTLA(成功晋级比例)提升幅度达8%-12%,验证了历史数据在早期筛选中的指导价值。特别在TRJ亚种,五年数据整合使E1阶段就能识别出35%最终进入E4阶段的潜力株系,较传统方法提前2-3年。
**理论创新与实践启示**
本研究突破传统验证框架(如交叉验证),创新性地采用"时间窗验证法":每个预测策略的验证仅使用当年E1数据作为测试集,前4年数据作为训练集,严格模拟真实育种流程中的数据可用性。这种方法使PA计算更贴近生产实际,与传统交叉验证相比,PA均值普遍降低15%-20%,但更真实反映育种实践中的决策条件。
关键结论包括:
- **环境互作建模的双刃剑效应**:当环境多样性不足时(如单试验或单年度分析),GE项可能引入伪相关,反而降低PA。而在多环境联合建模中,GE项能精准分离出20%-30%的表型变异,显著改善残差方差。
- **数据密度阈值**:PS5展现最佳性能的前提是数据密度达到一定水平(年评估株系数>500)。当数据量不足时,PS1(单年度联合建模)表现更优,这为资源有限的公共育种项目提供了实用选择。
- **亚种特异性响应**:TRJ亚种对数据聚合更敏感(PS5 PA提升19%),而IND亚种更依赖单年度多环境整合(PS1 PA达0.65)。这种差异可能与TRJ亚种遗传多样性更高有关。
**方法优化方向**
研究指出现有模型在环境结构解析上的局限性:当前GE建模多采用固定效应处理,但实际育种中环境变异具有随机性。建议未来研究可尝试:
1. **动态环境权重分配**:根据环境与核心育种目标的关联强度,为不同试验场次分配差异化的权重系数
2. **空间-时序联合建模**:将地理信息系统数据与时间序列分析结合,捕捉微环境异质性的时空演变规律
3. **弹性数据聚合策略**:开发基于贝叶斯信息准则(BIC)的自动数据聚合算法,智能选择最优时间跨度(如2-5年动态窗口)
**产业转化路径**
IRBP已将研究成果应用于2024-2025育种季:
- 建立"5年滚动数据池",将试验周期前移至第3年
- 开发自动化GE检测模块,当环境多样性指数(EDI)>0.7时自动启用GE建模
- 构建动态PA评估系统,实时监控不同策略的预测效能
**研究局限与拓展方向**
尽管取得显著进展,研究仍存在以下局限:
1. 数据空间分布不均(PL试验站占比78%)
2. GE建模依赖环境分类(仅4个种植时间类别)
3. 未纳入分子标记数据
未来可结合基因组选择技术,构建"表型-基因"双轨验证体系。例如,在PS5框架下引入基于分子标记的预测变量,预计可使PA提升8%-12%(模拟试验结果)。此外,研究建议公共育种机构建立标准化数据归档机制,确保历史数据可被有效挖掘。
**结论**
本研究证实,通过系统整合育种历史数据,可在早期阶段(E1)建立可靠选种模型。对于资源受限的公共育种项目,推荐采用"单年度多环境联合建模(PS1)+五年数据滚动验证"的混合策略,在保证计算可行性的同时,将亲本选择提前至第2年,品种审定提前至第3年。这一方法可使遗传增益速率提升18%-22%,相当于每年减少约1/3的田间试验量。研究结果为全球公共育种机构优化资源分配提供了可复制的操作框架。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号