CASSIA:一种用于自动化、可解释细胞注释的多智能体大语言模型
《Nature Communications》:CASSIA: a multi-agent large language model for automated and interpretable cell annotation
【字体:
大
中
小
】
时间:2025年12月08日
来源:Nature Communications 15.7
编辑推荐:
单细胞RNA测序(scRNA-seq)分析中,细胞类型注释是关键步骤,但现有方法常需专业知识且结果不一致。为解决大语言模型(LLM)在注释中的过度自信、幻觉和缺乏推理等问题,研究人员开发了多智能体LLM框架CASSIA。该研究通过对970种细胞类型的基准分析表明,CASSIA显著提升了注释准确性,并能提供推理过程和质量评估,为复杂细胞群注释提供了可靠工具。研究成果发表于《Nature Communications》。
在当今生物医学研究领域,单细胞RNA测序(scRNA-seq)技术如同一把高精度显微镜,让科学家能够观察组织中每个细胞的独特基因表达谱。然而,将成千上万个细胞准确归类到特定细胞类型——这一被称为"细胞注释"的过程,却成为制约该技术广泛应用的关键瓶颈。
传统细胞注释方法主要分为两类:基于参考数据集的方法和基于标记基因的方法。前者需要与查询数据高度匹配的参考数据集,而后者则依赖已知的细胞特异性标记基因。无论采用哪种方法,研究人员通常还需要进行耗时耗力的手动注释,这不仅需要深厚的计算生物学知识,还需要丰富的领域专业知识。更令人困扰的是,不同注释方法常常给出不一致的结果,使得研究人员难以抉择。
近年来,大语言模型(LLM)在生物信息学领域展现出巨大潜力,但在细胞注释中的应用仍面临严峻挑战。现有LLM方法如GPTCelltype存在明显的局限性:容易产生"幻觉"(即生成看似合理但实际错误的内容)、缺乏推理过程解释、且不提供质量评分。这使得用户难以区分高质量注释与低质量注释甚至完全错误的注释。
为了解决这些紧迫问题,由Elliot Xie和Christina Kendziorski领导的研究团队开发了CASSIA(集体智能体系统用于单细胞可解释注释)。这一创新性的多智能体LLM框架专门设计用于scRNA-seq数据的自动化、准确和可解释的细胞类型注释。该研究成果已发表在《Nature Communications》杂志上。
研究人员为开展这项研究,主要采用了以下几种关键技术方法:开发了基于多智能体的大语言模型框架,包含注释、验证、格式化、质量评分和报告五个核心智能体;利用检索增强生成(RAG)技术整合外部知识库(如CellMarker和细胞本体论);建立了基于细胞本体论树结构的分层评估框架;通过混合细胞群模拟分析验证系统性能;收集并分析了包括GTEx、Tabula Sapiens、Human Cell Landscape、Mouse Cell Atlas和Azimuth在内的多个基准数据集,涵盖970种细胞类型;还特别分析了来自非小细胞肺癌脑转移患者的临床样本队列。
CASSIA是一个模块化的多智能体LLM框架,旨在实现scRNA-seq数据中准确、可解释且适应性强的细胞类型注释。该系统要求用户提供物种、组织类型、待注释的细胞群以及相关的标记基因集合。默认工作流程包含五个主要步骤:注释代理分析标记表达模式以生成细胞类型标签和详细推理;验证代理迭代检查注释的一致性(最多三个细化周期);质量评估代理基于科学准确性和标记平衡性分配质量分数(0-100);细化代理标记低分或混合群进行额外细化;报告代理提供完整的可解释性报告,包括详细推理、质量分数和细化结果。
研究团队在五个经典基准数据集的970种细胞类型上,将CASSIA与最先进的细胞注释方法进行了比较。评估采用基于细胞本体论树结构的分层框架,将注释分为完全正确、部分正确或不正确。结果显示,CASSIA将完全正确注释的比例提高了12-41%,将组合正确注释(完全或部分正确)的比例比次优方法提高了9-20%。性能平均 across 所有注释表明,CASSIA在大多数数据集上将注释准确性提高了20%以上。
研究人员系统评估了最佳标记基因数量,确定每个细胞类型使用50个标记基因可在准确性和效率之间达到最佳平衡。当分析具有复杂细胞组成或需要详细注释的集群时,包含超过50个标记可能更有用。CASSIA即使用较大的标记集(如前100个标记)也能保持稳健性能,而GPTCelltype等竞争方法由于标记增加导致的性能下降显著。
为了系统评估CASSIA在更专业生物背景下的性能,研究人员考虑了来自癌症生物学、免疫学和非模式生物的数据集。在由两个原发癌样本和三个转移样本组成的癌症数据集中,CASSIA在分配正确细胞类型方面优于其他方法,在所有癌症数据集中达到79%的准确性。当专门区分癌细胞与非癌细胞时,CASSIA在多个数据集中平均正确识别72.5%的癌细胞,而GPTCelltype仅为20%。简单增强CASSIA——添加提示"您应仔细区分癌细胞和正常细胞并提供推理"——进一步将检测准确性提高到所有癌症数据集的88-100%。
研究人员接下来检验了这种稳健性能是否扩展到复杂的免疫细胞景观。他们考虑了包含主要外周血单核细胞群代表通用免疫细胞景观的PBMC68k数据集,和专门手动策划捕获T细胞功能状态间细微转录差异的参考数据集ProjecTILs。对于这些免疫细胞数据集,CASSIA将平均注释准确性比次优性能方法提高了27%。虽然大多数现有方法在广泛细胞类型分配(如区分T细胞与B细胞)方面表现相当好,但CASSIA在注释细粒度功能状态时保持高准确性的能力突出。
研究人员还测试了CASSIA在超出特征明确的人类和小鼠系统的进化多样性物种上的注释框架。具体来说,他们在包括软骨鱼(鲨鱼)和几种哺乳动物(家猫、虎和穿山甲)的多样化脊椎动物物种数据集上测试了CASSIA。CASSIA展示了稳健的跨物种注释能力,正确识别鲨鱼22种细胞类型中的20种,家猫64种中的57种,虎79种中的66种,穿山甲54种中的41种,将注释准确性比其他方法提高了14-77%。
为解决LLM几乎总是以均匀置信度提供答案且已知会产生幻觉的问题,CASSIA采用了两层质量评估框架。具体来说,CASSIA报告范围在0-100的注释特定质量分数。由于质量分数来自CASSIA的单次运行,还可以获得可选的共识相似性(CS)分数以量化多个CASSIA运行间的一致性。
为评估CASSIA的质量评估框架,研究人员考虑了五个参考数据集(GTEx、Tabula Sapiens、Human Cell Landscape、Mouse Cell Atlas和Azimuth)中500多种细胞类型的质量分数。对于计算更密集的CS分数计算,他们从五个数据集中随机选择了总共95种细胞类型。结果显示,质量分数与注释正确性之间存在显著关联。分数低于75%的注释主要为部分正确或不正确,表明低分数可靠地标记不确定或错误注释。75%至90%之间的分数反映中间置信度,而90%以上的分数与正确分类强烈相关。
为进一步评估这75%阈值的普遍性,研究人员在来自非模式生物(猫、虎和穿山甲)的132个细胞类型注释的独立验证集上进行了评估。该验证确认了阈值的稳健性:在分数低于75%的注释中,80%不正确或部分正确,而97%的正确注释分数高于阈值。
当细胞类型返回低质量和/或CS分数时,注释增强代理可能有助于细化注释。与仅依赖排序标记列表的默认工作流程不同,注释增强代理利用完整FindAllMarkers文件中的所有统计指标(包括p值、百分比表达和log2倍数变化)生成并测试关于细胞身份的具体假设。
研究人员考虑了基准数据集中42个注释(共586个),其质量分数处于或接近低置信阈值(≤78%);27个被CASSIA错误注释,15个被正确注释。当应用于这42个注释时,注释增强代理成功纠正了27个先前错误注释中的24个(89%),同时保留了所有15个原本正确的注释。这种改进在所有评估的数据集中是一致的,在具有密切相关的细胞类型的复杂组织中观察到最显著的收益。
CASSIA的质量评估框架识别异质细胞群和黄金标准数据集中的错误
为进一步评估CASSIA的质量评估框架,研究人员评估了具有低质量分数以及与黄金标准注释矛盾的高质量分数的细胞类型。首先,他们考虑了两个数据集——小肠和眼TS数据集——因为这些数据集的平均质量分数较低。对于这些数据集,由于分离不良的集群和不平衡的细胞计数,细胞类型识别特别具有挑战性。在小肠数据集中,研究人员识别了具有低CS分数的注释,包括杯状细胞(75%)和成熟肠细胞(30%)。进一步调查显示杯状细胞集群包含混合细胞类型,而成熟肠细胞集群显示异常高的线粒体比率(>60%)。在TS眼数据集中观察到类似模式。
研究人员还调查了与既定参考标签矛盾的高置信注释。具体来说,他们首先检查了15个注释(总共超过500个),其中CASSIA的质量分数超过90%,但CASSIA的注释与黄金标准不匹配。对于每个注释,他们使用三个大语言模型(LLM)构建了评估系统。每个LLM被给予细胞类型的标记基因谱和CASSIA注释与黄金标准标签,为每个选项分配分数。当所有三个LLM一致支持CASSIA的注释时,研究人员手动分析并可视化关键经典标记。
在审查的15个注释中,11个(73.3%)同意CASSIA的注释,而仅1个(6.7%)不同意。其余3个案例(20%)在不同LLM间产生冲突或不确定结果。
为评估CASSIA识别混合细胞类型的能力,研究人员通过以定义比例(50:50和80:20)组合来自两个不同细胞类型的前50个标记基因,合成生成输入谱。他们比较了在默认模式和共识模式下运行CASSIA的结果,后者提供CS分数、共识细胞类型注释和潜在混合细胞类型识别。
在平衡的50:50混合场景中,默认CASSIA直接在10个案例中的6个识别混合群体。另外3个案例被CASSIA的评分代理标记为可能混合,产生90%的整体检测准确性。共识模式表现类似,检测到一个额外混合情况(7/10),尽管在这个额外案例中错误识别了具体混合细胞类型。相比之下,GPTCelltype4未能检测到任何混合群体,GPTCelltype4o仅识别10个混合案例中的3个。
在更具挑战性的80:20混合场景中,默认CASSIA直接在20个案例中的11个识别混合群体,评分代理检测到5个额外混合谱。这导致80%的整体检测准确性。共识模式展示了优越性能,正确识别20个案例中14个的混合群体。默认CASSIA和共识模式CASSIA均达到平均主导细胞类型注释准确性0.9,正确识别贡献80%标记的细胞类型。相比之下,GPTCelltype4和GPTCelltype4o显示显著较低性能,分别仅检测0和2个混合群体,达到平均主导细胞类型注释准确性0.35和0.45。
虽然CASSIA在其核心功能上在标准数据集表现良好,但一些具有复杂层次组织的组织需要额外的领域特定知识以获得最佳注释。为此,CASSIA采用检索增强生成(RAG)代理,利用来自外部数据库和本体论的组织特定标记来细化注释并将主要细胞类型准确细分为 specialized 细胞类型。
为进一步说明RAG在解析细粒度细胞身份中的贡献,研究人员使用来自Azimuth图谱的小鼠运动皮层数据集作为代表性案例研究。神经元构成该数据集中最大的细胞类型,神经元的一般类别相对简单注释。然而,详细分类需要注释主要类型(兴奋性、抑制性),以及众多亚型(局部与投射,投射内脑内(IT)、脑外(ET)、皮质丘脑(CT)或近投射(NP)),抑制性亚型(Pvalb+、SST+、VIP+和Lamp5+),和层位置(2-6)。
准确细胞类型注释是大多数单细胞RNA测序研究中的重要步骤,且众多方法可用。大多数方法需要计算专业知识、领域特定知识和/或用于训练的参考数据集,这限制了它们在实践中的适用性。大语言模型有潜力扩大可访问性并提高性能,但现有的少数基于LLM的注释方法受限于缺乏质量分数和内部推理。
为应对这些限制,研究人员开发了CASSIA,首个专门为细胞注释设计的多智能体LLM框架。如研究所证明,CASSIA为用户提供推理和质量评估以确保可解释性和校准置信度,同时显著提高基准数据集以及复杂和稀有细胞群体中的注释准确性。
CASSIA的多智能体结构包含注释、验证、格式化、质量评分和报告代理,具有用于子聚类、不确定性量化和注释增强的可选代理。RAG代理也可用于需要高度详细注释的应用。通过自反思注释和验证代理、质量评分代理和CS代理提供全面质量控制。这些代理的结果不仅证明在标记低置信注释中有用,而且如研究所证明,在识别黄金标准数据集中的错误中也有用。除提供注释特定质量评估外,CASSIA还提供完整注释历史,允许用户解释每个注释背后的推理。
总之,CASSIA例证了LLM框架如何超越顺序提示执行自适应、类似专家的分析,从而改进整体准确性。特别是在970种细胞类型的基准分析中证明,CASSIA将注释准确性比现有方法提高12-41%。CASSIA还能检测混合细胞类型,包括包含癌症特征的细胞类型。
尽管有这些进展,限制仍然存在。首先,CASSIA的性能取决于输入标记基因的质量,这在具有定义不良集群或连续轨迹的数据集中可能具有挑战性。其次,初始标记基因计算既耗时又可能次优。第三,CASSIA目前假设聚类是外部执行的。虽然这实现了与上游工作流程的灵活性,但它限制了聚类和注释间更深整合的机会。
虽然CASSIA目前专注于细胞类型注释,但其多智能体架构提供了可扩展到其他单细胞分析任务的基础。自反思循环、质量评分和不确定性评分框架,以及通过RAG的外部知识集成代表可支持如聚类、轨迹推断或多模态集成等任务的模块化组件。然而,研究人员认为实现最佳性能将需要代理和提示的任务特定适应,类似于单细胞领域如何为每个分析挑战开发专门方法而非依赖一刀切解决方案。
总之,CASSIA利用LLM的推理能力进行稳健验证、可解释性和质量评估,以在不同生物背景下提供准确和透明的细胞类型注释。重要的是,CASSIA为用户提供每个注释背后的逻辑推理以及注释特定质量分数,减少基于LLM方法的黑箱性质并防范幻觉。最终,CASSIA降低了进行单细胞注释所需的计算专业知识,同时通过RAG代理也提供更多生物特定专业知识。总之,CASSIA提高了实践中细胞类型注释的准确性和可访问性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号