利用贝叶斯非线性模型从碎片化纵向数据估算柑橘杂交幼苗生长曲线的创新研究
《Tree Genetics & Genomes》:Estimating fruit tree growth curves in breeding field using fragmented longitudinal data: an application to citrus hybrid seedlings
【字体:
大
中
小
】
时间:2025年10月03日
来源:Tree Genetics & Genomes 1.6
编辑推荐:
本研究针对果树育种中长期测量难题,创新性地提出利用年龄混合田间产生的碎片化纵向数据,结合贝叶斯非线性模型和基因组信息,成功实现了柑橘杂交幼苗生长曲线的高精度估算。结果表明,该方法可将后期生长阶段参数估计误差降低84.3 mm2,为果树育种中生长性状的早期评价提供了重要技术支撑。
在果树育种研究中,营养生长与生殖生长的动态关系一直是影响果实品质的关键因素。然而,由于树木生长缓慢的特性,获取完整的纵向生长数据往往需要数年时间,这严重制约了生长模型的构建和遗传分析。传统育种田间通常同时存在不同树龄的植株,这种年龄混合的种植模式产生了一种特殊的"碎片化纵向数据"——每个个体仅有两个时间点的测量值,但整个群体覆盖了完整的生长周期。
针对这一挑战,日本东京大学与农业食品产业技术综合研究机构的研究团队在《Tree Genetics & Genomes》发表了创新性研究。他们利用624个柑橘杂交幼苗的基因组数据(包含45,929个标记),首次系统评估了贝叶斯非线性模型在碎片化纵向数据分析中的应用潜力。该研究不仅探索了如何通过统计模型弥补数据缺失,还创新性地将基因组信息整合到生长曲线估计中,为果树育种提供了新的研究范式。
研究团队主要采用了三种关键技术方法:首先基于真实柑橘育种群体的基因组数据模拟生成生长曲线;其次设计了两大实验场景(年轻群体后期生长估计和年老群体早期生长估计)和三种分析方法(单群体无基因组信息、多群体无基因组信息、多群体有基因组信息);最后通过基因组关系矩阵(GRM)实现了未测试个体生长参数的预测。
研究人员首先利用逻辑斯蒂生长模型生成真实的纵向数据,该模型包含三个关键参数:A(渐近参数,代表生长曲线最大值)、B(拐点时间)和C(拐点生长速率的倒数)。通过设置合理的参数均值和方差,模拟出符合柑橘树干周长实际生长规律的数据,并添加测量误差使遗传力保持在0.5。
实验设计巧妙模拟了实际育种场地的测量条件:在连续两年内分别测量嫁接后2、4、6年的三个群体(最年轻、中间和最老群体),形成覆盖2-7年生长周期的碎片化数据集。通过两种场景(估计年轻群体后期生长和老群体早期生长)和三种方法的对比,系统评估了模型性能。
在Scenario 1(估计年轻群体后期生长)中,Method 2(使用所有群体数据但无基因组信息)和Method 3(使用所有群体数据且有基因组信息)均显著优于Method 1(仅使用目标群体数据)。Method 3在4-7年生长阶段的均方误差(MSE)显著降低,相关性提高,证明多群体信息和基因组信息的联合使用能有效提升估计精度。
特别值得注意的是,参数A(代表后期生长)的估计精度改善最为明显,这表明模型能够有效利用其他群体后期生长信息来补偿目标群体数据缺失。贝叶斯非线性模型通过假设所有个体参数服从同一分布,有效防止了参数估计的过度偏离,实现了不同群体间的信息"借用"。
Method 3通过引入基因组关系矩阵,进一步提升了估计性能。当表型数据缺失严重时,基因组关系为参数估计提供了额外约束,遗传相近的个体被赋予相似的参数值。这种基因组引导的估计策略在多个家庭群体中表现出色,准确度提升指数显示,遗传多样性越丰富的群体,基因组信息带来的改善越明显。
研究发现了群体结构对估计精度的显著影响。当个体按家族随机分配到不同群体时(多家庭群体I),估计性能最佳;而按家族集中分配时(多家庭群体II),性能下降。这表明群体间的遗传连接性是实现跨群体信息借用的关键。单一家族群体由于遗传多样性有限,基因组信息的改善作用相对较小。
基于基因组关系的预测模型首次实现了对未测试个体生长曲线的直接预测。虽然参数A的预测精度相对较高(相关性约0.4),但参数B和C的预测性能较差,反映了从碎片化数据预测生长曲线的挑战性。预测性能同样受训练群体与测试群体间遗传关系的影响,这与其他基因组选择研究的结果一致。
本研究的重要创新在于将年龄混合田间的测量负担转化为统计优势,通过贝叶斯框架实现了碎片化数据的有效整合。与传统需要6年连续测量的方法相比,该方法仅需2年测量即可估计完整生长曲线,极大缩短了育种周期。
在柑橘育种实践中,该方法为树体活力评价提供了新思路。通过生长曲线将不同树龄个体的表型标准化,使得早期选择成为可能。特别是Scenario 1(将年轻群体表型标准化到较老年龄)的优越性能,表明该方法更适合用于预测树木后期生长表现。
虽然早期生长参数(B和C)的估计精度仍有提升空间,但通过优化测量时间间隔(如增加早期测量频率)有望进一步改善。未来研究可结合无人机表型平台,实现更高通量的数据采集,从而充分发挥该方法的潜力。
这项研究为果树育种中时间依赖性性状的遗传分析开辟了新途径,通过统计学方法与基因组信息的有机结合,为解决长期困扰育种家的测量难题提供了创新解决方案。随着基因组选择在果树育种中的广泛应用,这种整合生长模型和基因组预测的方法有望成为未来育种研究的重要工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号