基于大语言模型OncoChat的肿瘤类型分类与原发灶不明癌症基因组学诊断新策略

【字体: 时间:2025年09月05日 来源:Cell Reports Medicine 10.6

编辑推荐:

  本研究针对原发灶不明癌症(CUP)诊断难题,开发了基于大语言模型(LLM)的OncoChat系统。通过整合158,836例肿瘤基因组数据(SNVs/CNAs/SVs),实现对69种肿瘤类型的精准分类,在CUP病例中预测准确率达84.6%,且预测结果与患者生存结局显著相关(P<0.001)。该研究为临床决策支持提供了创新工具,发表于《Cell Reports Medicine》。

  

在肿瘤诊疗领域,原发灶不明癌症(Cancer of Unknown Primary, CUP)始终是临床面临的重大挑战。这类占全球癌症3%-5%的病例,因无法确定组织起源而被迫接受经验性化疗,中位生存期仅6-16个月。尽管分子检测技术如全基因组测序(WGS)和免疫组化(IHC)已取得进展,但存在成本高、可及性差等局限。更棘手的是,现有机器学习模型如OncoNPC和GDD-ENS仅覆盖20-38种癌症类型,且对罕见肿瘤分类性能显著下降。如何建立普适性强、精准度高的诊断系统,成为亟待突破的科学难题。

针对这一瓶颈,天津医科大学肿瘤研究所Jilei Liu、Meng Yang等学者在《Cell Reports Medicine》发表创新研究。团队开发了基于大语言模型的OncoChat系统,通过整合美国癌症研究协会(AACR)GENIE项目中163,585例靶向测序数据(含158,836例已知原发灶肿瘤和4,749例CUP),构建了涵盖69种癌症类型的分类体系。关键技术包括:1) 将基因组变异(SNVs/CNAs/SVs)与临床信息转化为对话格式进行指令微调;2) 采用Qwen和Mamba系列模型构建九模型集成系统;3) 通过5折交叉验证评估性能;4) 在26例确诊CUP队列和719例生存随访队列中进行临床验证。

研究结果部分,多个关键发现令人振奋:

模型性能比较

OncoChat在19,940例测试集上展现卓越性能:准确率77.4%、F1分数75.6%,显著优于OncoNPC(71.8%)和GDD-ENS(61.6%)。其微平均PRAUC达0.810(95%CI 0.803-0.816),尤其在38种与GDD-ENS重叠的癌症中准确率提升至80.3%。

结构变异整合

引入结构变异(SVs)使模型性能产生质的飞跃:PRAUC从0.802跃升至0.831(p<0.001),对胶质瘤、B细胞肿瘤等复杂癌症的召回率提升显著。特征分析显示,SVs能有效捕捉BRCA-PARP1等合成致死相互作用(注意力分数差异p<1e-3)。

罕见肿瘤分类

在样本量<200的极罕见肿瘤中,OncoChat表现突出:间皮瘤F1分数达0.746,较OncoNPC提升8.1%;骨肉瘤分类准确率提升30.8%,证明其对数据稀疏场景的强适应性。

CUP临床应用

在26例确诊CUP中,OncoChat正确识别22例(84.6%),包括常规方法误诊的前列腺癌和胆管癌病例。更关键的是,在719例CUP生存分析中,模型预测的胰腺癌/胃食管癌组中位生存期最短(HR=2.34),而头颈鳞癌/HNSCC组预后最佳,与已知原发灶肿瘤的生存模式高度吻合(Spearman's ρ=0.75)。

分子机制解析

TransformerLens框架的可解释性分析揭示,模型决策与癌症生物学高度一致:TP53在肺癌/卵巢癌中权重最高,BRAF在黑色素瘤中特征显著。22例正确分类的CUP中,APC在结直肠癌预测、VHL在肾癌预测中的贡献度符合已知驱动基因模式。

这项研究开创性地将大语言模型应用于肿瘤基因组诊断,其临床意义深远。OncoChat不仅解决了CUP诊疗的"盲区"问题,更通过以下方面推动领域发展:1) 首次证明结构变异对癌症分类的关键价值;2) 建立目前最全面的69癌种分类体系;3) 验证预测结果与生存结局的强相关性;4) 提供可解释的分子机制依据。正如作者指出,该系统与现有临床基础设施高度兼容,可立即整合至诊疗流程。未来通过纳入转录组、表观组等多组学数据,有望进一步突破诊断瓶颈,为精准肿瘤学树立新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号