
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于全基因组甲基化与机器学习整合的甜樱桃休眠阶段预测标记研究
【字体: 大 中 小 】 时间:2025年09月05日 来源:Frontiers in Plant Science 4.8
编辑推荐:
本研究通过整合全基因组亚硫酸氢盐测序(WGBS)与机器学习(ML)算法(随机森林RF和XGBoost),首次在甜樱桃中建立了高精度的休眠阶段分类模型(准确率最高达97.1%),揭示了转座元件(LTR/ty3-retrotransposons和LTR/Copia)及染色体4上关键QTLs相关区域的甲基化标记对休眠调控的生物学意义,为多年生果树物候管理提供了新型表观遗传工具。
背景
甜樱桃(Prunus avium L.)的休眠是适应冬季逆境和春季恢复生长的复杂生理过程。传统物候评估和农业气候模型存在分辨率低、年际稳定性差等局限。表观遗传机制尤其是DNA甲基化(mCG/mCHG/mCHH)被证实是休眠转换的关键调控因子,但甲基化数据与机器学习(ML)的整合研究在多年生物种中仍属空白。
方法
研究团队采集三个独立实验的甜樱桃品种(Santina、Regina等)花芽样本,通过全基因组亚硫酸氢盐测序(WGBS)获得716,255个胞嘧啶和69,398个甲基化区域数据。采用随机森林(RF)和XGBoost算法构建三阶段(paradormancy/endodormancy/ecodormancy)和两阶段(endodormancy/ecodormancy)分类模型,结合SHAP(SHapley Additive exPlanations)进行特征解释。特征选择采用四重共识策略(RF/XGB/SHAP-RF/SHAP-XGB),并通过t-SNE验证数据降维效果。
结果
模型性能:RF在两阶段分类中表现最优,胞嘧啶水平准确率达97.1%(区域水平89.3%),显著优于XGBoost(65.8%)。三阶段模型中,ecodormancy分类效果最佳(F1-score 0.96),而paradormancy因样本量少(仅9个)误判率最高(78%)。
关键特征:SHAP分析显示chr_4_31092165等胞嘧啶位点和chr_3_9331371_9331488等区域对ecodormancy判别贡献最大。
基因组定位:52.79%特征位于转座元件(TE),其中LTR/ty3-retrotransposons和LTR/Copia富集于启动子区(71个胞嘧啶)和基因体(51个胞嘧啶)。染色体4的25-32 Mb区间特征密集,与已知QTLs(如开花期FD、冷需求量CR)共定位。
讨论
技术突破:首次证明单胞嘧啶甲基化标记(如chr_1_38152240)比区域标记更具判别力,可能通过调控转录因子结合位点影响基因表达。
生物学意义:LTR类TE的甲基化动态可能与RNA介导的DNA甲基化(RdDM)通路相关,其响应环境信号的特性为休眠调控提供表观遗传开关。
应用价值:染色体4的QTL热点区(含DAM基因簇)与甲基化特征共定位,暗示表观遗传变异是品种间休眠差异的重要来源。
结论
该研究建立的"WGBS-ML"框架不仅揭示了TE相关甲基化在休眠转换中的核心作用,更为开发基于甲基化检测的非破坏性物候监测技术奠定基础。未来可通过功能验证chr_4_31092165等标记位点,进一步解析温度感知与表观遗传调控的分子对话机制。
生物通微信公众号
知名企业招聘