基于AnnDictionary的大语言模型细胞类型与基因集注释性能基准测试

《Nature Communications》:Benchmarking cell type and gene set annotation by large language models with AnnDictionary

【字体: 时间:2025年10月29日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对单细胞转录组测序(scRNA-seq)分析中细胞类型注释依赖人工专家、缺乏自动化工具的问题,开发了基于LangChain和AnnData的开源软件包AnnDictionary。研究团队利用该工具对15种主流大语言模型(LLM)进行首次系统性基准测试,发现Claude 3.5 Sonnet在细胞类型注释中与人工注释的一致性达84.0±0.7%,在基因集功能注释中与源GO术语的语义匹配率达81.20±0.32%。这项工作为单细胞分析提供了灵活高效的自动化注释解决方案,相关性能排行榜将持续更新。

在生命科学研究领域,单细胞转录组测序(scRNA-seq)技术的突破性进展彻底改变了我们对细胞异质性的认知能力。这项技术不仅助力科学家发现新的癌症靶点和稀有细胞类型,更深化了我们对细胞表型和功能的理解。然而,随着单细胞实验规模的不断扩大和分析复杂度的持续增加,数据分析过程中的关键瓶颈问题日益凸显——其中细胞类型注释这一核心环节长期依赖人工专家经验,成为制约研究效率的重要障碍。
传统注释方法需要研究人员基于已知标记基因进行手动标注,这一过程既耗时又容易引入主观偏差。更为棘手的是,不同研究团队使用的注释术语和分类标准存在差异,使得数据整合和比较分析变得异常困难。尽管已有一些自动化注释工具,但它们大多依赖预定义的参考数据集,缺乏应对新细胞类型和复杂生物情境的灵活性。
近年来,大语言模型(LLM)在自然语言处理领域展现出惊人能力,这为单细胞数据分析带来了新的曙光。这些模型能够理解生物医学文本中的专业术语和概念关联,为自动化注释提供了潜在解决方案。然而,在LLM应用于单细胞分析的实际道路上,存在着诸多挑战:不同LLM提供商接口各异、模型性能参差不齐、大规模数据处理效率低下,特别是缺乏对"从头注释"(de novo annotation)场景的系统性评估——即直接对无监督聚类产生的基因列表进行注释,这些列表包含未知信号和噪声,比精心筛选的基因列表更具挑战性。
为了突破这些技术瓶颈,斯坦福大学Stephen R. Quake团队与Tabula Sapiens联盟合作,开发了名为AnnDictionary的开源Python软件包,并开展了迄今为止最全面的LLM注释性能基准测试研究。这项发表于《Nature Communications》的重要工作,不仅提供了强大的技术工具,更为研究者选择合适的LLM模型提供了科学依据。
研究团队开发的技术方法主要包括:基于Tabula Sapiens v2单细胞转录组图谱(包含1,136,218个细胞)的系统性分析流程;利用AnnDictionary软件包实现的并行处理和多LLM供应商支持架构;基于差异表达基因的自动化细胞类型注释流程;以及包括直接字符串比较、Cohen's kappa(κ)和LLM辅助评分在内的多维度评估体系。特别值得关注的是,研究采用了严格的五重复实验设计以确保结果稳定性,并针对数据泄露风险进行了系统性评估。
AnnDictionary是处理注释数据的并行后端
研究团队首先构建了能够简化多注释数据并行处理的后端系统。AnnDictionary在LangChain和AnnData基础上开发,定义了AdataDict类来管理多个注释数据对象,并提供了类似R语言lapply()或Python map()的fapply方法。这一设计支持多线程操作,结合错误处理和重试机制,使得15种LLM对组织-细胞类型的图谱级注释在可控时间内完成。该系统还包含对常见Scanpy函数的封装,支持标签传递管道和数据集成技术,为各种单细胞RNA测序和空间转录组任务提供灵活后端。
AnnDictionary整合常见LLM集成
作为该领域首个原生支持多LLM供应商的软件包,AnnDictionary包含多项技术创新:少样本提示、重试机制、速率限制器、可定制响应解析和故障处理。研究人员设计了能够从UMAP图中自动尝试确定聚类分辨率的LLM代理,尽管当前LLM在此任务上可靠性有限,但仍可作为有用的初步尝试。细胞类型注释功能支持多种方法:基于单个标记基因列表、使用思维链推理比较多个标记基因列表、在提供父细胞类型背景下尝试推导细胞亚型,以及在预期细胞类型集合背景下进行注释。
Claude 3.5 Sonnet与人工注释的一致性最高
通过对Tabula Sapiens v2单细胞转录组图谱的系统分析,研究团队评估了LLM在细胞类型注释中的表现。预处理包括独立处理每个组织:标准化、对数转换、设定高变异基因、缩放、主成分分析(PCA)、计算邻域图、使用Leiden算法聚类,以及计算每个簇的差异表达基因。LLM基于前10个差异表达基因对每个簇进行细胞类型标注,并由同一LLM审查标签以合并冗余和修正随意冗长。
评估结果显示,Claude 3.5 Sonnet与人工注释的二元一致性最高,达到84.0±0.7%,紧随其后的是Claude 3 Opus、Llama 3.1 405B Instruct和GPT-4o。在按细胞类型平均的完美匹配比例方面,Claude 3.5 Sonnet(54±4%)、Claude 3 Opus(54±4%)和GPT-4o(54±6%)并列表现最佳。轻量级模型因参数数量较少而表现最差,亚马逊的Titan模型因无法可靠遵循指示而被排除在评估之外。
LLM在注释主要细胞类型方面表现出色
研究发现,在注释细胞与注释细胞类型之间存在约15-20%的性能差异,表明模型在大型常见细胞类型上的一致性较高。在10种最大的细胞类型中,LLM持续获得高分(>80-90%),唯独基质细胞和基底细胞除外。进一步分析发现,被人工注释为基底细胞的细胞大部分被顶级LLM注释为上皮细胞,这两种细胞在谱系上密切相关。同时,卵巢来源的基质细胞被LLM推导出该群体的亚簇细胞类型名称。
注释质量的定性评估
通过绘制每种细胞类型的LLM间一致性与人工注释一致性的关系图,研究人员能够识别被LLM一致评分但与人工注释存在分歧的细胞类型。大多数细胞类型的LLM间一致性超过50%,表明这些LLM在整个图谱中的完全虚假注释率普遍较低。按细胞类型群体大小分层后显示,主要细胞类型在LLM间和与人工注释方面都具有高度一致性,而较小细胞类型虽然LLM间一致性中等(>50%),但与人工注释不一致。
具有高LLM间一致性和低人工一致性的细胞类型
对散点图左上角最接近的10种细胞类型的分析发现,其中最大的是被人工注释为单核吞噬细胞(n~5000)的细胞类型,被LLM注释为巨噬细胞。基于经典标记基因的分析表明,该簇主要包含巨噬细胞,但也包含单核细胞和树突状细胞。这表明"单核吞噬细胞"这一标签是对几种细胞类型表型的有用描述,但代表了与同一集合中其他标签不同的注释深度。
生物过程注释的基准测试
在基因集功能注释方面,研究团队遵循先前建立的方法,评估LLM生成的基因集注释与基因来源的基因本体(GO)术语标签的匹配程度。基于500个来自GO生物过程术语的基因集注释,Claude 3.5 Sonnet实现了与源GO术语的最高紧密匹配比例(81.20±0.32%),其次是Llama 3.1 405B Instruct(71.9±0.5%)和Claude 3 Opus(71.0±0.4%)。
本研究首次对LLM在从头细胞类型注释方面的能力进行了全面基准测试,并计划在Tabula Sapiens上维护LLM在此任务上的性能排行榜。同时,这也是首次对14种LLM从已知过程的基因集进行生物过程注释的基准测试。性能测量结果表明,大型LLM能够在广义细胞类型水平上提供可靠的从头细胞类型注释,以及可靠的生物过程注释。
与基于筛选基因列表的先前研究相比,本研究评估了LLM注释来自无监督聚类的完整复杂基因列表的能力。在细胞数量比Tabula Sapiens v1多一倍以上的v2数据集上,主要细胞类型的注释准确率超过80-90%,使基于LLM的注释成为首轮细胞类型注释的可行选择。LLM生成注释的灵活性解决了自动化注释程序的主要问题,这些程序历史上因需要使用注释参考集而缺乏灵活性。
除了直接LLM标记单列表差异表达基因外,研究还测试了另外两种注释策略:多种LLM的集成投票注释,以及在单个对话中通过思维链推理多个标记基因列表并在预期细胞类型背景下进行注释。这两种方法都显著增加了运行时间、费用和复杂性,但并未带来普遍的绩效提升。在测试的三种方法中,每次直接注释单个基因列表是性能最佳、最简单且最具成本效益的注释广义细胞类型的方法。
使用LLM注释细胞类型的一个主要优势是,它们似乎能够以比人工实现更一致的深度进行注释。然而,大规模细胞类型注释也凸显了细胞类型注释本身的潜在缺陷。LLM对基底细胞和单核吞噬细胞等细胞类型的注释明显不足,实际上可能代表了将转录组数据中的连续表达梯度二分的人为假象,而非LLM本身性能的问题。
研究的局限性包括对从GO术语直接衍生的筛选基因集进行基准测试,这些列表可能与实验衍生的基因列表不同。进一步评估的困难包括建立基因列表的真实解释基础,因为基因通常在许多可能独立的背景中使用。
总之,这项工作开发了简化多个注释数据并行处理的后端工具,通过单行代码封装了LLM后端配置和切换,简化了LLM在注释任务中的使用。除了本文描述的基于标记基因的细胞类型注释基准测试外,研究团队计划在https://singlecellgpt.com/celltype-annotation-leaderboard维护此任务的LLM排行榜,为单细胞分析社区提供持续更新的性能参考。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号