大语言模型在癌症基因变异分类中的性能评估:GPT-4o、Llama 3.1 与 Qwen 2.5 的基准测试

【字体: 时间:2025年05月16日 来源:npj Precision Oncology 6.8

编辑推荐:

  精准肿瘤学中,癌症基因变异的临床可操作性分类至关重要却极具挑战。研究人员评估了 GPT-4o、Llama 3.1 和 Qwen 2.5 对 OncoKB、CIViC 数据库及真实数据集的分类能力。发现 GPT-4o 准确性最高(0.7318),提示 LLMs 潜力与优化需求。

  
在精准医学时代,癌症患者的治疗愈发依赖基因检测的精准指导。通过多基因下一代测序(NGS)技术对肿瘤进行基因组分析,已成为临床标准流程。然而,面对 NGS 检测出的大量基因变异,尤其是罕见变异,如何准确解读其致病性和临床可操作性(如判断变异属于临床相关还是意义未明变异 VUS)成为难题。现有的分类系统(如 OncoKB、CIViC、AMP/ASCO/CAP 分级)虽提供了标准化框架,但依赖专家手动标注和数据库更新,耗时费力且存在主观差异。在此背景下,大语言模型(LLMs)因其处理海量非结构化数据的能力,被视为提升变异分类效率的潜在工具,但此前缺乏系统性评估。

为探索 LLMs 在癌症基因变异分类中的应用价值,台北荣民总医院联合国立台北护理健康大学等机构的研究团队,开展了针对 GPT-4o、Llama 3.1(70B)和 Qwen 2.5(72B)三种模型的基准测试研究。该研究成果发表于《npj Precision Oncology》,为 LLMs 在精准肿瘤学中的应用提供了关键数据支撑。

研究主要采用以下技术方法:

  1. 数据集构建:整合 OncoKB(625 个变异)、CIViC(4426 个变异)公共数据库及 FoundationOne CDx 检测的真实临床数据(612 例患者的 10,506 个变异,分为临床相关和 VUS 两类)。
  2. 模型评估框架:通过系统提示词(system prompts)引导模型按 CIViC 和 OncoKB 证据等级分类,采用 Top-1 准确率、混淆矩阵、一致性比率(100 次迭代)评估性能,并与三位病理学家的人工分类结果对比。
  3. 优化策略测试:探索提示工程(基础提示 vs. 精细提示)、检索增强生成(RAG)及模型温度设置对分类效果的影响。

研究结果


1. 区分临床相关变异与 VUS 的性能


在 FoundationOne 数据集(真实临床数据)中,GPT-4o 准确率最高(0.7318),显著优于 Qwen 2.5(0.5731)和 Llama 3.1(0.4976)。混淆矩阵显示,Llama 3.1 和 Qwen 2.5 倾向于将 VUS 误判为临床相关(过分类),而 GPT-4o 虽对 VUS 的正确分类率达 94.1%,但近半数临床相关变异被误判为 VUS(保守分类)。当三个模型分类一致时(占 26.3% 的变异),准确率高达 0.9732,显示共识分类的可靠性。

2. 按证据等级分类的性能


  • OncoKB 数据集:GPT-4o 的 Top-1 准确率为 0.3393,略高于 Qwen 2.5(0.3328)和 Llama 3.1(0.3066)。模型对最高证据等级(Level 1)变异分类更准确,但对低等级变异(如 Level 2-4、R1/R2)存在混淆,尤其易将耐药相关变异(R1/R2)误判为治疗相关等级。Qwen 2.5 在 Top-2/Top-3 准确率表现更优,可能与其生成多候选答案的能力相关。
  • CIViC 数据集:Qwen 2.5 的 Top-1 准确率最高(0.2485),但整体准确率低于 FoundationOne 数据集。模型普遍倾向于将低等级证据(如 Level C/D)提升至更高等级(如 B/A),显示过分类趋势。值得注意的是,CIViC 提示词包含各等级示例,使模型一致性比率(>90%)高于 OncoKB。

3. 稳定性与人类专家对比


100 次迭代测试显示,所有模型在 CIViC 数据集上的一致性高于 OncoKB,可能与提示词示例提供的明确指引有关。Qwen 2.5 在 OncoKB 中稳定性最佳,而 GPT-4o 在临床数据集中与病理学家的分类一致性更高,显示其更贴近临床判断。

4. 优化策略的影响


  • 提示工程:精细提示(明确模型角色、输入输出格式)使 Qwen 2.5 在 FoundationOne 的准确率从 0.5731 提升至 0.7246,并减少过分类倾向,但在 OncoKB/CIViC 中准确率下降,提示不同数据集需适配提示策略。
  • RAG 技术:在 Qwen 2.5 中整合 CIViC 数据库和 FDA 批准信息后,FoundationOne 准确率提升至 0.6616,证明外部知识注入可增强模型推理能力。
  • 温度设置:降低 Llama 3.1 的温度(从 0.8 至 0)可显著提升一致性(100%)和 Top-1 准确率(至 0.3312),表明通过参数调整可平衡稳定性与准确性。

研究结论与讨论


本研究首次系统评估了 LLMs 在癌症基因变异临床分类中的性能,发现 GPT-4o 在真实临床数据中表现最佳,且与人类专家一致性较高,但所有模型对低证据等级变异的分类仍存在挑战,且普遍存在过分类倾向。提示工程、RAG 和参数优化(如温度调整)可显著提升性能,但需针对不同分类系统(如 OncoKB vs. CIViC)设计适配策略。

研究同时指出,LLMs 的性能受限于训练数据的时效性(如 GPT-4o 数据截止至 2023 年 10 月),部分模型对已知 FDA 批准药物(如 KRAS G12C 抑制剂)的分类错误提示其知识更新机制不足。未来需结合实时知识检索(如整合动态数据库)和领域特异性微调(如生物医学专用模型 BioMedLM、OpenBioLLM),以进一步提升准确性和临床适用性。

尽管当前 LLMs 的准确率尚未超越人类专家(如 AMP VITAL 挑战中人类准确率 54%-94%),但其快速处理海量文献和生成多候选答案的能力,已展现出作为辅助工具优化变异解读流程的潜力。结合专家审核的 “AI 辅助 + 人工验证” 模式,有望推动精准肿瘤学中基因变异分类的标准化与效率提升,为个性化治疗决策提供更及时的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号