单细胞转录组测序(scRNA-seq)能够揭示生物体中多种细胞的作用,但准确分类细胞亚群及其标记基因仍然是一个挑战。在此,研究人员提出了PhytoCell,这是一个结合了特征选择工程与机器学习(Machine Learning, ML)的集成学习框架,用于发现细胞标记物并对细胞亚群进行注释。研究人员在来自双子叶植物物种郊狼烟草(Nicotiana attenuata)花冠的120,000个细胞和单子叶植物物种水稻(Oryza sativa)的八个组织的单细胞转录组数据集上评估了该框架。跨物种和组织的综合评估表明,PhytoCell能有效消除冗余信息,识别关键细胞标记物,提高聚类性能,并准确分类细胞亚群。重要的是,PhytoCell不依赖先验生物学知识来选择细胞标记物,保留了原始数据的生物学景观。为了更广泛的可及性,研究人员开发了一个用户友好的Web界面,为用户提供便捷的工具来访问细胞标记物资源并执行细胞类型预测。PhytoCell可在 https://cgris.net/phyto免费访问,且可扩展到不同规模的单细胞数据集,代表了细胞研究中精确鉴定的宝贵资源。
《The Crop Journal》:PhytoCell: An ensemble learning framework for identifying cell states in plant scRNA-seq data
编辑推荐:
单细胞转录组测序(scRNA-seq)能够揭示生物体中多种细胞的作用,但准确分类细胞亚群及其标记基因仍然是一个挑战。在此,研究人员提出了PhytoCell,这是一个结合了特征选择工程与机器学习(ML)的集成学习框架,用于发现细胞标记物并对细胞亚群进行注释。研究
单细胞转录组测序(scRNA-seq)能够揭示生物体中多种细胞的作用,但准确分类细胞亚群及其标记基因仍然是一个挑战。在此,研究人员提出了PhytoCell,这是一个结合了特征选择工程与机器学习(ML)的集成学习框架,用于发现细胞标记物并对细胞亚群进行注释。研究人员在来自双子叶植物物种郊狼烟草(Nicotiana attenuata)花冠的120,000个细胞和单子叶植物物种水稻(Oryza sativa)的八个组织的单细胞转录组数据集上评估了该框架。跨物种和组织的综合评估表明,PhytoCell能有效消除冗余信息,识别关键细胞标记物,提高聚类性能,并准确分类细胞亚群。重要的是,PhytoCell不依赖先验生物学知识来选择细胞标记物,保留了原始数据的生物学景观。为了更广泛的可及性,研究人员开发了一个用户友好的Web界面,为用户提供便捷的工具来访问细胞标记物资源并执行细胞类型预测。PhytoCell可在 https://cgris.net/phyto免费访问,且可扩展到不同规模的单细胞数据集,代表了细胞研究中精确鉴定的宝贵资源。
论文标题:PhytoCell:一种用于识别植物scRNA-seq数据细胞状态的集成学习框架
研究背景
单细胞转录组测序(scRNA-seq)是分析细胞分化、组织器官发育及胁迫响应的革命性工具,能够解析复杂组织内的细胞异质性。然而,有效分析高维且充满噪音的scRNA-seq数据仍面临巨大挑战。目前已知的标记基因数量有限,且往往缺乏跨实验和跨物种的普适性,导致细胞亚群的注释并不总是可移植的。尽管常用差异表达分析方法能鉴定许多候选基因,但它们通常缺乏特异性,可能无法代表真正的细胞标记基因。相比之下,人工智能(AI)特别是机器学习(ML)在处理高维、稀疏和非线性数据集方面表现出色,为解决scRNA-seq数据分析难题提供了强有力的工具。
研究方法
研究人员构建了PhytoCell框架,并在烟草和水稻的单细胞数据集上进行了验证。关键技术方法包括:1)数据收集与预处理:使用了来自Nicotiana attenuata花冠不同发育阶段(ZT8, ZT12, ZT16)的约3,775个细胞,以及来自水稻八个不同组织(共116,564个细胞)的大规模scRNA-seq图谱,并严格按照原始流程进行了质量控制、批次校正及训练集/测试集划分(8:2)。2)特征选择:采用最大信息系数(MIC)、F-score和TURF三种算法评估基因重要性,并结合增量特征选择(IFS)策略确定最优基因集。3)模型构建:核心采用极端梯度提升(XGBoost)、支持向量机(SVM)、随机森林(RF)和轻量梯度提升机(LightGBM)四种基模型,并通过stacking算法构建集成模型PhytoCell。4)模型评估:使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数及受试者工作特征曲线下面积(AUC)等指标进行综合评价,并利用SHapley Additive exPlanations(SHAP)进行模型可解释性分析。5)生物学分析:利用UMAP进行降维可视化,PAGA进行轨迹分析,并通过DAVID进行GO和KEGG富集分析。
研究结果
3.1 PhytoCell的设计
研究人员设计了PhytoCell框架,其可靠性源于三个技术贡献:结合三种特征选择方法与四种ML模型的IFS策略以推导最优基因集;通过多指标评估的集成建模以确保鲁棒性和泛化性;以及验证所选基因集区分亚群有效性的表达模式分析。整体工作流程涵盖数据获取、特征选择、模型评估和应用四个环节。
3.2 PhytoCell区分N. attenuata花冠发育过程中的细胞身份**
在N. attenuata花冠组织中,MIC特征选择策略与XGBoost模型结合的60个最优基因在五折交叉验证中达到了94.1%的准确率。PhytoCell集成模型进一步将准确率、精确率、召回率和F1分数分别提升至93.3%、93.4%、92.5%和93.5%。ROC曲线和混淆矩阵显示误分类率低,且在测试集上的表现优于Seurat和Scanpy等基于差异表达基因(DEGs)的基线方法。SHAP分析表明A4A49_00047等基因对模型预测贡献最大。
3.3 PhytoCell捕获N. attenuata花冠细胞在不同时间点的核心生物标志物**
利用60个最优基因进行UMAP可视化,观察到三个明显不同的簇,分别对应不同时间点。研究不仅验证了已知标记基因(如A4A49_00882),还鉴定了新的生物标志物,例如ZT8特异性表达的A4A49_37381和ZT16高表达的A4A49_20906。PAGA分析显示,基于这60个基因的轨迹拓扑结构与全数据集高度一致,证明PhytoCell捕获了核心生物标志物并排除了冗余信号。
3.4 PhytoCell发现N. attenuata花冠跨时间点细胞亚群的新生物标志物**
针对每个时间点内部的细胞异质性,PhytoCell将数据集细分为五个细胞亚群。以ZT8为例,PhytoCell框架使用60个最优基因达到了86.3%的准确率和0.9355的AUC值。气泡图和 violin 图显示,A4A49_57192在表皮细胞中特异表达,而A4A49_35899在维管组织中高表达。GO和KEGG富集分析表明,ZT8富集于细胞壁修饰,ZT12富集于苯丙烷生物合成,ZT16则富集于脂肪酸代谢。
3.5 PhytoCell在水稻中的应用
为验证通用性,研究人员将PhytoCell应用于包含超过116,000个细胞的水稻八组织数据集。结果显示,PhytoCell在不同组织中识别出不同数量的最优基因(如分蘖芽60个,旗叶210个),并在所有组织中始终优于单一模型。UMAP分析证实,PhytoCell选定的基因集比全转录组更能清晰地区分细胞亚群,例如在分蘖芽中,Os01g0822900等在茎尖分生组织亚群中高表达。
3.6 PhytoCell的额外数据集评估
在拟南芥(Arabidopsis)根端数据集的独立评估中,PhytoCell使用前210个基因达到了92.3%的准确率,并在聚类性能上显著优于基线模型,进一步证实了该框架的鲁棒性。
3.7 PhytoCell Web服务器
研究人员开发了用户友好的Web界面(
https://cgris.net/phyto),用户可通过“Home”页面按物种、组织类型和细胞类型检索基因标记,也可通过“Prediction”页面上传表达矩阵文件以获取细胞亚群预测结果。
讨论与结论
准确识别细胞亚群有助于建立细胞类型与功能基因之间的联系。PhytoCell框架基于scRNA-seq数据实现了单细胞群体的高效分类和潜在细胞标记基因的发现。跨物种验证表明,MIC因能捕捉非线性依赖关系而表现最佳,集成模型相比单一算法具有更优越的预测性能和鲁棒性。尽管PhytoCell在多数据集上表现稳健,但仍存在局限性,如对严重批次效应和跨平台变异性的潜在影响尚需进一步评估。未来工作应扩展至更多物种、组织类型和测序平台。总之,PhytoCell为scRNA-seq研究中的目标细胞亚群识别提供了宝贵资源,并将持续更新数据库。该研究成果已发表于《The Crop Journal》。