综述：表型组预测的哲学及其与因果推断的不兼容性

《The Plant Phenome Journal》：Philosophy of phenomic prediction and its incompatibility with causal inference

【字体：大中小】 时间：2026年07月03日 来源：The Plant Phenome Journal CS5

编辑推荐：

　　育种计划需要频繁做出决策，以有效改良群体和开发品种。这些需求促使了21世纪初基因组预测和2010年代中期表型组预测的发展。在实践中，表型组预测技术依赖于与其他分析（如基因组预测、方差组分估计和遗传力分析）相同的统计工具和计算框架；除此之外，它们没有进一步的相似

育种计划需要频繁做出决策，以有效改良群体和开发品种。这些需求促使了21世纪初基因组预测和2010年代中期表型组预测的发展。在实践中，表型组预测技术依赖于与其他分析（如基因组预测、方差组分估计和遗传力分析）相同的统计工具和计算框架；除此之外，它们没有进一步的相似性。表型组预测应擅长预测表型值，而基因组预测应擅长预测育种值，如果包含非加性方差则为总遗传值。如表型组预测通常所实施的，不应在因果推断框架内解释。这是因为表型组特征通常与目标性状（如基因型和环境）具有共同的因果结构，并且也可能与性状本身存在统计关联。因此，在线性（混合）模型中，将表型组特征与共同决定因素一起作为预测因子，会引入混杂和/或碰撞偏倚。因此，表型组预测模型中的估计效应应解释为支持预测的关联，而不是因果关系证据。研究人员讨论了这些问题，并提出多元最佳线性无偏预测（Multivariate Best Linear Unbiased Predictor, MvBLUP）模型作为一种解决方案，用于在更适合因果解释的框架内进行表型组预测。

1 引言

表型组预测被定义为“利用高通量表型组学获得大量变量，这些变量可用作经典用于[基因组预测]的统计模型中的回归因子或用于估计亲缘关系”。该概念受益于相关性状和性状指数选择的理论与应用知识，以及利用遗传标记进行预测和选择的丰富应用知识。得益于众多免费使用的统计包和软件，研究人员可以将来自各种传感器的表型组特征（变量）替换到与基因组标记（不同复杂性的DNA变体）相同的工具中。表型组学是一套令人兴奋的工具和技术，促进了育种家与多样化研究团队之间的跨学科合作。自2018年以来，已有大量论文证明了表型组数据在不同作物和技术中的预测能力。鉴于其新颖性和受关注程度，有必要评估这些线性混合模型（Linear Mixed Model, LMM）分析的理念，以理解它们与目标性状之间的因果关系。

2 表型组预测估计什么？

基因组预测和表型组预测是不同的，并不估计相同的参数。在LMM分析中，研究人员通常最关注估计的固定效应和预测随机效应。这些模型的核心部分是塑造最佳线性无偏预测（Best Linear Unbiased Predictor, BLUP）估计的协方差矩阵。通过基因组预测，获得基因组估计的育种值；通过表型组预测，获得表型组估计的表型值。两者都利用统计模型中的共享信息来估计预测目标，即可知的真实值，用于描述给定模型旨在估计的内容：育种值、总遗传值或表型值。表型组预测中的预测目标可能是育种值，但要使此成立，表型组特征与目标性状之间唯一的协方差来源应是加性遗传协方差；如果任何协方差来源是非加性的，则这些预测将不一致。预测目标也可能是总遗传值，但这要求目标性状和表型组特征上所有非遗传效应的协方差为0，并要求表型组特征捕获所有贡献的遗传方差。实际上，表型组预测模型可能同时捕获目标性状的加性遗传方差（育种值）、显性方差（总遗传值）和非遗传方差（表型值）。

2.1 高通量表型组学（High-Throughput Phenotyping, HTP）与表型组学

HTP与表型组学之间存在本质区别。HTP指的是快速且（半）自动地收集大量记录，其目标几乎总是增加试验中可评估的样地、时间点、子样本和其他变量的数量。当HTP方法无偏时，有助于产生更精确的条目均值和标记效应估计。另一方面，表型组学方法试图测量每个个体的大量性状（源自传感器），可用于预测目标性状；任何给定特征对此任务的价值可能取决于该特征与目标性状的共同遗传率。表型组数据比目标性状更便宜或更快收集时，这种方法能够扩大数据收集，与HTP的目标一致。如果表型组预测能力高，还可能通过利用育种者方程中的有利动态来提高遗传增益，相对于传统表型选择，在保持准确性的同时提高选择强度。然而，通常用于表型组预测的模型不能在因果推断框架内解释，因为它们无法避免明显的实验偏倚来源。

2.2 表型组选择是基于相关性状指数的选择

对相关性状的选择取决于几个易于理解的参数：对目标性状的遗传增益与选择的相关性状的遗传率、相关性状本身的遗传率以及两者之间的遗传相关系数成正比。在具有线性模型的表型组预测中，表型组预测值是特征的加权总和，其中权重对应于回归系数。该指数的遗传率由方差和协方差组分的加权和之比给出，受限于各特征的遗传率和指数与目标性状之间的遗传相关。

3 基因组与表型组：亲本选择与产品进阶

基因组和表型组预测在育种计划中的作用和目的不同，取决于它们估计的参数：表型或育种值。亲本选择和产品进阶是两个不同但相互关联的阶段。亲本选择通过建立变化群体的遗传潜力来改良群体；产品进阶则在真实世界条件下通过重复观察验证哪些个体表现最佳，并只进阶最佳表现者。表型组预测最适用于亲本选择当目标性状的狭义遗传率高时，因为个体的表型性能应该是其育种值的一个良好代理。表型组预测对于产品进阶可能最有用，当目标性状在相关环境集内的广义遗传率高时，因为个体在一个地点的表型性能应该是其在目标群体环境（Target Population of Environments, TPE）内其他地点性能的良好代理。

4 主要断言

目标性状与表型组特征之间相关性的根本来源既包括遗传也包括非遗传。对于在环境e中测量的基因型g上的目标性状y，其观察值可分解为真实表型值、遗传值、环境主效应和基因型与环境互作（Genotype-by-Environment interaction, GE）。同样，表型组特征也具有类似的分解。在单环境下，只能通过实验设计分离遗传和环境效应。研究人员断言，在大多数现实条件下，目标性状和表型组特征由于遗传和非遗传来源而协变，这是因为不完全的环境校正、调整后的均值估计误差、GE、共享的设计或操作伪影，以及可能并非明确遗传的压力、管理或发育引起的间接环境混杂。

5 碰撞、混杂和选择偏倚

混杂、中介和碰撞偏倚会显著影响模型衍生/估计参数的有效性和解释。估计因果效应通常需要以协变量为条件来调整混杂，但选择合适的协变量是一项复杂的任务。（1）混杂偏倚产生于当第三个未建模的变量同时影响暴露和结果，在表型组预测中，这表现为表型组被视为暴露、目标性状为结果，而两者的遗传和非遗传方差来源均未建模。（2）碰撞偏倚和中介发生于当暴露导致第三个变量且与结果存在因果关系，这在结合基因组和表型组信息的多核模型中必然发生，因为特征由遗传学驱动，两者都与目标性状相关，且均被视为暴露。（3）选择偏倚产生于当数据集的纳入取决于候选者的某些固有属性。这些偏倚必须逐案评估。在表型组预测中，当真实遗传效应和真实环境效应未在模型中考虑时，它们会混杂表型组性状与目标性状之间的关系，这些混杂因素可以完全驱动表型组特征与目标性状之间的相关性。当表型组特征和遗传特征被天真地组合时，表型组特征会与遗传特征对目标性状的关系发生碰撞或中介，并且也被环境相关性混杂。

6 有用的模型和避免偏倚

在包含目标性状、表型组特征和基因型信息的实验中，定向无环图（Directed Acyclic Graph, DAG）连接了这些组件。假设基因型和环境对目标性状及表型组特征有直接和间接效应。

6.1 表型组预测模型不可解释

近期多篇论文展示了表型组选择潜力，将表型组特征直接替代基因组标记。常见的表型组预测模型将表型组相似矩阵作为随机效应，但该相似矩阵实际上是遗传信号、环境值和测量误差的组合。忽略基因型和环境对表型组特征的影响会导致对关联的高估或低估，因为遗传和环境都是混杂变量。因此，不能将表型组预测模型中的估计效应解释为“因果”。该方法在育种计划中作为预测缺失表型数据的成本效益或高通量方法仍有价值，但通常要求进行BLUP或某种正则化。预测值可用于下游分析，但需注意双重BLUP过程可能带来的影响。

6.2 基因组预测模型可能比表型组预测模型更具可解释性

最常用的基因组预测模型（基因组最佳线性无偏预测，Genomic Best Linear Unbiased Prediction, GBLUP）假设目标性状是遗传和非遗传效应的函数，且这些效应不相关（不存在选择偏倚时）。该模型相对更接近因果结构，可以直接和间接效应进行建模，且独立于混杂和碰撞偏倚，意味着可以在因果推断框架内解释。尽管在小群体或高度不平衡设计中可能存在连锁不平衡等问题，总体上该模型在参数解释上优于表型组预测模型。

6.3 结合基因组和表型组信息的多核模型不可解释

多核方法在方程中同时纳入表型组特征和基因组标记，这比单纯表型组预测模型问题更严重。因为基因型同时导致表型组特征和目标性状，表型组特征作为协变量会中介或碰撞基因型对目标性状的直接效应，且表型组特征的遗传和非遗传方差未显式建模，会影响响应和预测因子。该模型忽略了基因型和环境中许多实际存在的路径，不应在因果推断框架内解释。

6.4 多元线性混合模型（Multivariate Linear Mixed Model, MvLMM）可能是可解释的

MvLMM是分解表型相关为遗传和非遗传组分的广泛使用的统计工具，能有效说明前述偏倚来源。在该模型中，所有测量的表型（目标或代理）均在方程左侧作为结果，并假设均源自遗传和非遗传方差来源。该模型允许测试不同的方差协方差结构，且假设与数量遗传学基本假设一致。尽管MvLMM在计算上具有挑战性，因为随着个体或性状数量增加需要反复求解大型方程组，且参数数量增长迅速，但它被认为是结合基因组和表型组预测的更好方式。

7 表型组预测在植物育种中的有效利用

利用表型组预测提高育种计划有效性可带来多种有利结果，这取决于育种者方程中各参数的相互作用。有利结果来源于增加可获得的信息，如增加可用性状记录数量、改变性状记录收集的时间或阶段；也来源于获取关于植物基因型或环境关系的新型信息，如产生新型性状记录以实现对潜在或代理性状的选择，以及改善环境表征和管理决策。总价值应根据预期和实现的选择响应以及相关全部参数来评估，避免过度关注单一成功指标。

8 结论

该领域的目标通常是预测而非推断，但采用因果推断思维有助于增强预测模型，产生更具普遍性的预测并更好理解变量间关系。当前方法存在显著不足：（1）缺乏关于表型组预测输出含义的强理论，建议将其解释为硅表型；（2）未将表型组预测输出分解为组成部分，且假设加性或非遗传贡献很小，这一假设过强；（3）未消除可知的偏倚来源，很少有表型组预测实现能产生可解释的参数估计。当表型组特征或相关性状被视为预测模型中的协变量时，存在潜在的混杂、碰撞或中介偏倚，导致参数估计不一致和不可靠。有效的协变量应满足与结果相关、不受暴露影响且测量准确可靠。表型组特征可能满足条件1但失败于条件2，因此在LMM分析中若目标是推断则不是可行的协变量。构建最接近数据最可能因果结构的模型将使这些技术更容易被关注推断的研究人员所采用。

热点排行