
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型的共识显著提高了单细胞RNA测序(scRNA-seq)数据的细胞类型注释准确性
《Communications Biology》:Large language model consensus substantially improves the cell type annotation accuracy for scRNA-seq data
【字体: 大 中 小 】 时间:2026年06月10日 来源:Communications Biology 5.1
编辑推荐:
摘要单细胞RNA测序(scRNA-seq)的快速发展使得准确的细胞类型注释成为生物学发现的关键瓶颈。现有的计算方法往往受限于参考数据的依赖性,而新兴的大型语言模型(LLM)方法则容易受到模型特定偏差的影响,并且无法提供足够的不确定性量化。为了解决这些限制,我们提出了mLLMCel
单细胞RNA测序(scRNA-seq)的快速发展使得准确的细胞类型注释成为生物学发现的关键瓶颈。现有的计算方法往往受限于参考数据的依赖性,而新兴的大型语言模型(LLM)方法则容易受到模型特定偏差的影响,并且无法提供足够的不确定性量化。为了解决这些限制,我们提出了mLLMCelltype框架,该框架利用了集体智能——即多个独立代理通过结构化讨论相互作用所产生的解决问题的能力,从而产生超出单个模型能力的解决方案。在49个不同的数据集中,我们的框架平均准确率达到77.2%,比表现最好的单一LLM基线(61.5%)提高了15.7个百分点。其共识机制对噪声输入具有很高的鲁棒性,并且能够泛化到LLM训练之后发布的数据集。通过提供透明的推理过程和基于共识的可靠置信度指标,mLLMCelltype减少了手动注释的工作量,并能够可靠地解释复杂的细胞景观。该框架以开源软件包和可访问的Web服务器的形式提供。