《Plant Biotechnology Journal》:DNAwhisper: An Integrated Deep Learning Pyramidal Framework for Multi-Trait Genomic Prediction and Adaptive Marker Prioritisation
编辑推荐:
本文推荐一篇聚焦植物基因组选择(GS)前沿的深度学习研究。针对高维、小样本基因组数据建模的难题,作者团队提出了一个名为DNAwhisper的创新框架。该框架通过级联金字塔架构GFIformer,利用跨分块标记共享网络参数,在层级化金字塔中自适应压缩遗传特征。其核心亮点在于整合了基于群体遗传结构的预训练以建立通用潜在表征,并利用性状引导的深度监督从不同金字塔层级提取多分辨率聚合基因组区域的重要性分数,从而同时提升预测准确性与模型可解释性。在玉米、小麦、番茄和葡萄数据集上的评估表明,DNAwhisper在表型预测精度上较基线模型提升约3.0%至10.0%,并能有效识别关键数量性状位点(QTL)和上位性信号。这项工作为解析复杂性状的遗传架构提供了新策略,是深度学习驱动精准育种领域的一项重要进展。
DNAwhisper框架概述
DNAwhisper是一个专为多性状预测和自适应标记优先排序设计的深度学习框架。它旨在解决基因组选择(GS)中面临的高维度标记(p)、小样本个体(n)数据所带来的挑战,这类数据阻碍了信息性标记的识别。该框架集成了一个级联架构GFIformer,通过在分区的标记块之间共享网络参数,在层次化的金字塔结构内自适应地压缩遗传特征。
核心架构与工作流程
框架的输入是植物的分子标记序列(如单核苷酸多态性,SNP)。处理流程始于参数共享嵌入模块。该模块使用可配置的卷积神经网络(CNN)特征提取器处理原始标记,将局部感受野内的标记聚合成一个向量表示,编码相对的位点信息和局部交互模式。嵌入阶段的基本目标是提取CNN感受野内标记之间的局部调控相互作用,将局部区块的特征合成为一个令牌向量,从而构建上下文表征。CNN固有的局部感受野和参数共享的归纳偏置使其能够建模局部标记效应并降低噪音。
初始标记嵌入随后由GFIformer模块处理。该模块采用级联金字塔架构,实现高效的参数共享和分层特征提取。GFIformer逐步捕获跨扩展基因组尺度的标记间长程调控关系,同时压缩序列表示。它将复杂的相互作用压缩为逐步精炼的性状相关特征向量表示,从而实现降维和噪声抑制。GFIformer模块包含一个分块Transformer编码器和一个任务特定的解码器。解码器集成了稀疏多头交叉注意力机制、一个专家选择混合专家(MoE)模块(用于多性状预测)以及一个注意力池化特征聚合层。该聚合层为每个性状生成压缩的标记表示,并输出可解释的注意力权重。同时,表型引导的深度监督将性状相关信息注入特征聚合层,从而增强模型的生物学可解释性。
考虑到Transformer模型的固有灵活性及其因缺乏强归纳偏置而对更多训练数据的需求,框架实施了关系保持预训练策略。该方法训练模型将高维标记输入压缩为低维表示,同时显式保留样本之间的定量遗传关系。通过迫使潜在空间反映生物相关性,这一过程注入了一种有原则的归纳偏置,旨在增强泛化能力并减少过拟合。样本组合的数量大大超过原始样本数,也在一定程度上丰富了训练数据集,可视为一种有效的数据增强。由于特征压缩表示的紧凑性和定制的训练策略,一个简单的前馈网络就足以作为输出块,将GFIformer生成的最终压缩特征向量高效地映射到预测的表型目标值。
另一个值得注意的高级训练策略是信息驱动的深度监督。注意力池化信息聚合层是DNAwhisper塔模块的标准组件,它根据特征表示对性状的贡献,在其感受野内聚合特征表示,并最终同步生成一个反映这些特征表示重要性的分布。这需要在每个模块中注入性状相关信息,以促进聚合层有效聚合关键信息并增强生物可解释性。在嵌入和GFIformer模块为后续模块压缩生成聚合特征向量之前,会对所有区块的向量表示应用平均池化。随后,利用前馈网络投影均值和log方差,并采用高斯负对数似然损失将性状相关信息注入聚合层。鉴于此损失发生在每个模块的末端,深度监督技术的实施至关重要。这些技术已被证明在深度增加的特征金字塔架构中有效,因为它们促进了多尺度特征协同并缓解了梯度消失。通过金字塔聚合结构传播重要性分布,能够通过潜在空间投影解开非线性相互作用,从而促进高分辨率标记优先排序和详细的解释性分析。
性能评估与结果
预训练策略的有效性在玉米1404数据集上针对抽雄期、吐丝期和散粉期三个性状进行了评估。比较实验表明,采用基于样本间遗传变异预训练方案的DNAwhisper变体,在预测残差分布、训练和验证损失收敛轨迹方面,均优于随机初始化的非预训练版本。预训练模型降低了预测残差方差,残差均值更紧密地围绕零分布,训练损失收敛更快更稳定,验证损失波动显著减小。这些发现表明,基于样本间遗传差异的预训练有效地实现了模型正则化,构建了一个有利于后续下游任务进行稳健和精确学习的特征空间。
预测准确性基准测试将DNAwhisper与六个已建立的GS模型(GBLUP、LightGBM、SVR、DeepGS、DLGWAS、DNNGP)在五个不同的植物数据集上进行了比较。结果显示,DNAwhisper在所有评估场景中普遍实现了更高的预测准确性,与基线模型相比,其预测准确性的皮尔逊相关系数(r)大约提高了3.0%到10.0%。例如,在Wheat599数据集(599个地方品种,1279个DArT标记)中,DNAwhisper在四个环境下的谷物产量预测中表现出更高的准确性。在更大的Wheat2000数据集、Maize1404数据集及其F1群体、Tomato332数据集以及为本研究新生成的自定义葡萄种群(Grape187)上,DNAwhisper也表现出一致的性能优势,验证了其在不同物种、环境、性状和高密度标记数据中的鲁棒性和可扩展性。
泛化能力评估通过分析Wheat2000数据集中六个农艺性状的预测残差分布进行。结果显示,验证集和测试集的残差值在所有六个评估性状上都围绕零中心分布,且两个集合的残差分布离散度和整体形状高度相似。这种一致性支持了模型学习到的参数及其在未见测试数据上泛化预测的能力,表明没有明显的系统偏差或过拟合。此外,在Maize 1404数据集上对三个相互关联的开花时间性状(抽雄期、吐丝期、散粉期)进行的多性状分析表明,DNAwhisper有效地捕捉了性状之间固有的生物学关系,其预测保持并厘清了性状相关性。在Wheat 599数据集上对四个不同环境的谷物产量进行的多环境预测性能评估也表明,DNAwhisper成功地利用了共享遗传效应,利用预训练的归纳偏置从环境噪声中提取真实信号,确保预测表型在不同条件下保持一致,同时通过去噪放大内在相关性。
基于注意力的标记优先排序与可解释性
DNAwhisper通过注意力聚合和深度监督机制,在每个模块末端生成与性状相关的权重,并逐块向后传播,最终反映在每个输入标记水平。这些权重分布量化了不同标记对性状预测的贡献,从而实现对信息性位点的优先排序。为从背景噪声中区分关键遗传信号,采用了一种基于统计方法的双评分策略。该策略利用两个指标:第一个从染色体背景中隔离局部信号峰,第二个验证这些信号在群体样本中的显著性。这些分数被整合并归一化以产生效用分数。
在玉米1404开花性状数据集上的分析显示,所有性状的对数尺度效用分数呈右偏分布。大多数标记的贡献低于平均值,只有少数标记表现出显著更高的权重,形成分布右侧的长尾。累积效用分布揭示了层级信息贡献:大约50%的累积贡献由前6817个位点解释,而95%的信息由前27310个位点捕获。对前50个关键位点的深入调查显示,其效用分数紧密聚集在一定范围内,反映了模型在自适应标记优先排序中的稳定性。
通过将原始效用分数转换为基于排序的经验p值,生成了类似曼哈顿图的可解释性分析图。在多性状分析中,多个不同的信号峰与已知的开花调控基因高度重叠。基准测试表明,该模型重现了几乎所有显著性信号,例如8号染色体上的花激活因子ZCN8,以及2号染色体上的关键调控因子VGT1和VGT2。除了这些强关联,模型还恢复了额外的高置信度信号,这些信号通常被传统线性方法的严格统计过滤所掩盖。这种敏感性使得能够识别出全基因组关联分析基线遗漏的关键功能位点,例如7号染色体上的花转变启动子ZmCCT和10号染色体上的光周期敏感性调控因子CONZ1。此外,在抽雄期和散粉期谱图中识别出了高密度调控簇,特别是涉及赤霉素代谢基因GID1和GID2。通过将重要性分数通过金字塔块追溯回特定的分子标记,这种分层聚合使DNAwhisper能够解析高密度调控簇,有助于从孤立的统计关联转向表征复杂的功能网络。
讨论与未来方向
DNAwhisper架构采用高效的多层参数共享金字塔结构,通过嵌入和GFIformer等多个模块的堆叠,结合标记块处理,逐步增加模型的感受野以捕获长序列中元素间的复杂交互。这种设计在赋予模型长序列处理能力的同时,管理了参数膨胀并控制了模型复杂度,从而降低了过拟合风险。GFIformer采用分块机制对上下文向量进行分组,并在不同层级实现块内和块间信息交换,有效降低了内存消耗,同时扩展了框架的上下文感知长度。
针对GS中的“大p小n”问题,DNAwhisper通过引入基于样本间遗传差异的新预训练任务来解决,该任务注入了保留压缩表示中定量遗传距离的生物学相关归纳偏置。该预训练任务旨在评估压缩后的特征向量是否能捕捉遗传关系。由于GS预测模型本质上优先考虑样本间相似性和遗传结构,因此这种方法适用于基因组预测应用。因为估计样本间遗传关系的方法是物种不可知的,所提出的预训练策略不受特定数据集的限制。实践中,预训练数据集可以由根据既定生物学原理生成的虚拟数据集或从现有跨物种资源中提取的标记子集组成。这种GS特异性预训练方法是本文的关键贡献之一。
在可解释性方面,DNAwhisper采用端到端的注意力聚合和深度监督机制,将性状相关信号分层传播回标记水平,从而实现标记的直接优先排序。与现有研究中主流的后验解释方法相比,该机制与模型的预测过程是内源对齐的。在训练过程中,模型利用标签信号促进信息聚合,从而增强其解释的生物学合理性,并减轻了深度增加架构带来的优化困难。本研究另一个贡献是将性状标签通过信息驱动的深度监督纳入模型的解释性机制。
在多个作物数据集上的系统评估表明,DNAwhisper在预测准确性和鲁棒性方面相对于现有方法有所改进。与经典统计学习方法相比,该框架利用非线性特征实现了更高的预测精度。与已建立的机器学习和深度学习模型相比,DNAwhisper在不同物种、环境和性状上表现出有前景的性能。实验结果验证了自适应标记优先排序机制的有效性,重要性分布准确地突出了已确定的主效基因。对ZCN8、VGT1和VGT2的一致检测证明了模型从背景噪声中区分真实基因组信号的能力,促进了新候选基因和高密度调控簇的发现。DNAwhisper在标记优先排序和性状预测中展示的可扩展性能,为其在功能基因验证和分子设计育种中的潜在适用性提供了证据。
实际应用建议
为促进DNAwhisper集成到GS流程中,总结了针对标准化育种阵列中典型标记密度范围的推荐配置。DNAwhisper接受样本特异性分子标记序列作为主要输入,支持PLINK和CSV等标准格式。建议根据输入标记数量选择大、中、小版本。对于1万到10万的输入,推荐使用大版本。对于3000到1万的输入,中等版本在计算成本和预测性能之间取得平衡。对于少于3000的输入,紧凑版本提供了适用于小样本和有限标记设置的轻量级架构。经验证据表明,标记数量与样本大小之间存在近似平衡;在标记数量大大超过样本数量的情况下,利用预训练和深度监督机制变得相关。预训练的编码器已被证明能捕捉样本间的遗传关系以及输入标记中与性状预测相关的其他信息,从而有助于提高预测稳定性。或者,在预测多个性状时适度增加解码器头的维度已被证明可以提高预测性能,特别是在样本量较大的情况下。建议将基因型数据以独热编码特征的形式输入模型,并在回归预测前将性状值进行最小-最大值归一化到0-1范围。在这些条件下,推荐的超参数配置能达到预测准确性。这些实用建议使DNAwhisper能够为育种应用提供一个有用的工具包。
未来发展方向
DNAwhisper的未来发展可在几个互补的方向上推进。架构可以整合多组学数据,利用互补的分子信息捕捉复杂的遗传调控机制。方法学改进可能侧重于高维标记的非线性架构;尽管在小样本背景下具有挑战性,但先验知识、结构化网络设计、多组学整合和预训练机制可以提供指导。将可解释性推向因果预测框架是一个关键优先事项。未来的迭代可以通过整合这些基于序列的重要性分数与多层生物证据,更有效地区分因果驱动因素与统计相关性,为超越简单关联评分的分子设计育种奠定基础。