
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的病理报告分析:癌症类型识别、AJCC分期与预后评估的新突破
【字体: 大 中 小 】 时间:2025年07月28日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对病理报告信息提取的临床挑战,创新性地评估了GPT-4o、Llama3等大语言模型(LLMs)在癌症类型识别、AJCC分期和预后预测中的性能。通过指令微调开发的Path-llama3.1-8B模型在资源受限环境下实现85%的分期准确率,为临床决策支持系统提供了高效解决方案。
在癌症诊疗过程中,病理报告作为"金标准"承载着关键诊断信息,但全球每年产生的数百万份非结构化病理报告正成为数据挖掘的瓶颈。传统方法依赖人工提取和正则表达式匹配,不仅效率低下,更难以捕捉AJCC分期所需的复杂临床特征。尤其令人担忧的是,约40%的医疗机构因资源限制无法充分挖掘这些数据中的预后线索,导致个性化治疗决策缺乏数据支撑。
针对这一挑战,康奈尔大学(Cornell University)、威尔康奈尔医学院(Weill Cornell Medicine)和康奈尔理工学院(Cornell Tech)的Rachit Saluja团队在《Scientific Reports》发表了一项开创性研究。研究人员系统评估了GPT-4o、Mistral和Llama3等6种大语言模型(LLMs)在病理报告分析中的表现,创新性地开发出两种指令微调模型:基于GPT-4o-mini优化的Path-GPT-4o-mini-FT和开源模型Path-llama3.1-8B。研究采用TCGA数据库的9,523份病理报告构建评估体系,通过Low-Rank Adaptation(LoRA)技术实现模型高效微调,显著提升了在资源受限环境下的应用可行性。
关键技术方法包括:1) 整合TCGA-Reports和TCGA-CDR两个公共数据集构建评估基准;2) 采用自生成思维链(Chain-of-Thought)技术增强模型推理能力;3) 开发结构化JSON输出模板确保临床部署兼容性;4) 通过外部验证集(60份临床报告)测试模型泛化能力。
癌症类型识别
研究显示,在952份涵盖32种癌症的测试集中,指令微调模型Path-GPT-4o-mini-FT达到99%的准确率。值得注意的是,模型在解剖位置相近的癌症(如直肠与结肠腺癌)中仍存在混淆,但通过指令微调将错误率降低62%。

AJCC分期识别
在594份报告的分期任务中,Path-llama3.1-8B以85%的准确率超越GPT-4o(76%)。研究首次发现LLMs在缺乏指导时倾向于极端预测(Stage I或IV),而思维链技术能显著改善这一现象。如图4案例所示,模型可准确识别皮肤黑色素瘤的溃疡特征等关键分期要素。

预后评估
这是最具挑战性的任务,研究创新性地将连续生存时间转化为二分类问题。Path-GPT-4o-mini-FT在593份报告中取得70%准确率,但F1-score仅0.48,反映模型对少数类的识别仍有困难。分析显示,整合分子标志物等多模态数据将是未来改进方向。

这项研究的意义在于:1) 首次系统评估LLMs在病理全流程分析中的表现,证实8B参数模型通过指令微调可达到商用LLMs水平;2) 开发的开源框架支持医院本地化部署,避免敏感数据外流;3) 提出的JSON结构化输出标准为临床系统集成铺平道路。正如作者强调,未来需整合基因组学数据和放射学报告,构建多模态预后模型。该成果为AI驱动的精准病理诊断树立了新标杆,其开源策略更将加速全球医疗AI民主化进程。
生物通微信公众号
知名企业招聘