单细胞转录组测序（scRNA-seq）能够揭示生物体中多种细胞的作用，但准确分类细胞亚群及其标记基因仍然是一个挑战。在此，研究人员提出了PhytoCell，这是一个结合了特征选择工程与机器学习（Machine Learning, ML）的集成学习框架，用于发现细胞标记物并对细胞亚群进行注释。研究人员在来自双子叶植物物种郊狼烟草（Nicotiana attenuata）花冠的120,000个细胞和单子叶植物物种水稻（Oryza sativa）的八个组织的单细胞转录组数据集上评估了该框架。跨物种和组织的综合评估表明，PhytoCell能有效消除冗余信息，识别关键细胞标记物，提高聚类性能，并准确分类细胞亚群。重要的是，PhytoCell不依赖先验生物学知识来选择细胞标记物，保留了原始数据的生物学景观。为了更广泛的可及性，研究人员开发了一个用户友好的Web界面，为用户提供便捷的工具来访问细胞标记物资源并执行细胞类型预测。PhytoCell可在 https://cgris.net/phyto免费访问，且可扩展到不同规模的单细胞数据集，代表了细胞研究中精确鉴定的宝贵资源。

《The Crop Journal》：PhytoCell: An ensemble learning framework for identifying cell states in plant scRNA-seq data

【字体：大中小】 时间：2026年03月28日 来源：The Crop Journal 6.0

编辑推荐：

　　单细胞转录组测序（scRNA-seq）能够揭示生物体中多种细胞的作用，但准确分类细胞亚群及其标记基因仍然是一个挑战。在此，研究人员提出了PhytoCell，这是一个结合了特征选择工程与机器学习（ML）的集成学习框架，用于发现细胞标记物并对细胞亚群进行注释。研究

单细胞转录组测序（scRNA-seq）能够揭示生物体中多种细胞的作用，但准确分类细胞亚群及其标记基因仍然是一个挑战。在此，研究人员提出了PhytoCell，这是一个结合了特征选择工程与机器学习（ML）的集成学习框架，用于发现细胞标记物并对细胞亚群进行注释。研究人员在来自双子叶植物物种郊狼烟草（Nicotiana attenuata）花冠的120,000个细胞和单子叶植物物种水稻（Oryza sativa）的八个组织的单细胞转录组数据集上评估了该框架。跨物种和组织的综合评估表明，PhytoCell能有效消除冗余信息，识别关键细胞标记物，提高聚类性能，并准确分类细胞亚群。重要的是，PhytoCell不依赖先验生物学知识来选择细胞标记物，保留了原始数据的生物学景观。为了更广泛的可及性，研究人员开发了一个用户友好的Web界面，为用户提供便捷的工具来访问细胞标记物资源并执行细胞类型预测。PhytoCell可在 https://cgris.net/phyto免费访问，且可扩展到不同规模的单细胞数据集，代表了细胞研究中精确鉴定的宝贵资源。

论文标题：PhytoCell：一种用于识别植物scRNA-seq数据细胞状态的集成学习框架

研究背景

单细胞转录组测序（scRNA-seq）是分析细胞分化、组织器官发育及胁迫响应的革命性工具，能够解析复杂组织内的细胞异质性。然而，有效分析高维且充满噪音的scRNA-seq数据仍面临巨大挑战。目前已知的标记基因数量有限，且往往缺乏跨实验和跨物种的普适性，导致细胞亚群的注释并不总是可移植的。尽管常用差异表达分析方法能鉴定许多候选基因，但它们通常缺乏特异性，可能无法代表真正的细胞标记基因。相比之下，人工智能（AI）特别是机器学习（ML）在处理高维、稀疏和非线性数据集方面表现出色，为解决scRNA-seq数据分析难题提供了强有力的工具。

研究方法

研究人员构建了PhytoCell框架，并在烟草和水稻的单细胞数据集上进行了验证。关键技术方法包括：1）数据收集与预处理：使用了来自Nicotiana attenuata花冠不同发育阶段（ZT8, ZT12, ZT16）的约3,775个细胞，以及来自水稻八个不同组织（共116,564个细胞）的大规模scRNA-seq图谱，并严格按照原始流程进行了质量控制、批次校正及训练集/测试集划分（8:2）。2）特征选择：采用最大信息系数（MIC）、F-score和TURF三种算法评估基因重要性，并结合增量特征选择（IFS）策略确定最优基因集。3）模型构建：核心采用极端梯度提升（XGBoost）、支持向量机（SVM）、随机森林（RF）和轻量梯度提升机（LightGBM）四种基模型，并通过stacking算法构建集成模型PhytoCell。4）模型评估：使用准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数及受试者工作特征曲线下面积（AUC）等指标进行综合评价，并利用SHapley Additive exPlanations（SHAP）进行模型可解释性分析。5）生物学分析：利用UMAP进行降维可视化，PAGA进行轨迹分析，并通过DAVID进行GO和KEGG富集分析。

研究结果

3.1 PhytoCell的设计

研究人员设计了PhytoCell框架，其可靠性源于三个技术贡献：结合三种特征选择方法与四种ML模型的IFS策略以推导最优基因集；通过多指标评估的集成建模以确保鲁棒性和泛化性；以及验证所选基因集区分亚群有效性的表达模式分析。整体工作流程涵盖数据获取、特征选择、模型评估和应用四个环节。

3.2 PhytoCell区分N. attenuata花冠发育过程中的细胞身份**

在N. attenuata花冠组织中，MIC特征选择策略与XGBoost模型结合的60个最优基因在五折交叉验证中达到了94.1%的准确率。PhytoCell集成模型进一步将准确率、精确率、召回率和F1分数分别提升至93.3%、93.4%、92.5%和93.5%。ROC曲线和混淆矩阵显示误分类率低，且在测试集上的表现优于Seurat和Scanpy等基于差异表达基因（DEGs）的基线方法。SHAP分析表明A4A49_00047等基因对模型预测贡献最大。

3.3 PhytoCell捕获N. attenuata花冠细胞在不同时间点的核心生物标志物**

利用60个最优基因进行UMAP可视化，观察到三个明显不同的簇，分别对应不同时间点。研究不仅验证了已知标记基因（如A4A49_00882），还鉴定了新的生物标志物，例如ZT8特异性表达的A4A49_37381和ZT16高表达的A4A49_20906。PAGA分析显示，基于这60个基因的轨迹拓扑结构与全数据集高度一致，证明PhytoCell捕获了核心生物标志物并排除了冗余信号。

3.4 PhytoCell发现N. attenuata花冠跨时间点细胞亚群的新生物标志物**

针对每个时间点内部的细胞异质性，PhytoCell将数据集细分为五个细胞亚群。以ZT8为例，PhytoCell框架使用60个最优基因达到了86.3%的准确率和0.9355的AUC值。气泡图和 violin 图显示，A4A49_57192在表皮细胞中特异表达，而A4A49_35899在维管组织中高表达。GO和KEGG富集分析表明，ZT8富集于细胞壁修饰，ZT12富集于苯丙烷生物合成，ZT16则富集于脂肪酸代谢。

3.5 PhytoCell在水稻中的应用

为验证通用性，研究人员将PhytoCell应用于包含超过116,000个细胞的水稻八组织数据集。结果显示，PhytoCell在不同组织中识别出不同数量的最优基因（如分蘖芽60个，旗叶210个），并在所有组织中始终优于单一模型。UMAP分析证实，PhytoCell选定的基因集比全转录组更能清晰地区分细胞亚群，例如在分蘖芽中，Os01g0822900等在茎尖分生组织亚群中高表达。

3.6 PhytoCell的额外数据集评估

在拟南芥（Arabidopsis）根端数据集的独立评估中，PhytoCell使用前210个基因达到了92.3%的准确率，并在聚类性能上显著优于基线模型，进一步证实了该框架的鲁棒性。

3.7 PhytoCell Web服务器

研究人员开发了用户友好的Web界面（https://cgris.net/phyto），用户可通过“Home”页面按物种、组织类型和细胞类型检索基因标记，也可通过“Prediction”页面上传表达矩阵文件以获取细胞亚群预测结果。

讨论与结论

准确识别细胞亚群有助于建立细胞类型与功能基因之间的联系。PhytoCell框架基于scRNA-seq数据实现了单细胞群体的高效分类和潜在细胞标记基因的发现。跨物种验证表明，MIC因能捕捉非线性依赖关系而表现最佳，集成模型相比单一算法具有更优越的预测性能和鲁棒性。尽管PhytoCell在多数据集上表现稳健，但仍存在局限性，如对严重批次效应和跨平台变异性的潜在影响尚需进一步评估。未来工作应扩展至更多物种、组织类型和测序平台。总之，PhytoCell为scRNA-seq研究中的目标细胞亚群识别提供了宝贵资源，并将持续更新数据库。该研究成果已发表于《The Crop Journal》。

热点排行