《Scientific Reports》:Performance of GPT-based large language models in hepatocellular carcinoma stratification: liver function assessment, BCLC staging, and treatment recommendations
编辑推荐:
大语言模型(LLM)如GPT已被提出可用于辅助复杂临床决策。本研究评估了基于GPT的大语言模型在分析肝细胞癌(HCC)患者临床、影像及实验室数据以评估肝功能、分配巴塞罗那临床肝癌(BCLC, Barcelona Clinic Liver Cancer)分期并给
大语言模型(LLM)如GPT已被提出可用于辅助复杂临床决策。本研究评估了基于GPT的大语言模型在分析肝细胞癌(HCC)患者临床、影像及实验室数据以评估肝功能、分配巴塞罗那临床肝癌(BCLC, Barcelona Clinic Liver Cancer)分期并给出治疗推荐方面的表现。研究收集106例HCC患者(82%男性,中位年龄65岁[22–86岁])的数据并整理为匿名整合报告。研究人员使用4个GPT版本(4、o1、o3、5.4),分别采用简略提示(short prompt)和详细提示(long prompt),令其计算终末期肝病模型(MELD, Model for End-Stage Liver Disease)评分、白蛋白–胆红素(ALBI, Albumin-Bilirubin)分级、Child–Pugh评分,分配BCLC分期,并根据现行指南生成治疗推荐。将模型输出与专家共识及多学科肿瘤委员会(tumor board)决策进行比对,对错误按类型及来源进行分类。同时对GPT与临床工作人员进行时间与成本分析。所有GPT版本在肝功能评估中均达到较高准确率(>85%),其中MELD计算最易出错。BCLC分期准确率范围为46.2%(版本4)至84.0%(o3),主要误判源于影像学报告分类错误。推理优化模型(o1、o3)在治疗推荐方面表现最佳,总体准确率(正确建议+可接受替代方案)最高达90.6%。9%–14%的病例中,GPT的建议回顾性比肿瘤委员会决策更符合指南。GPT处理速度显著更快,成本较临床工作人员降低约300至1300倍。基于GPT的大语言模型在HCC肝功能评估、BCLC分期及治疗指导中显示出作为决策支持工具的潜力。尤其在采用推理优化模型及详细提示(prompt)时,LLM可作为多学科HCC诊疗流程中有价值的辅助工具。然而不可忽视的错误率要求专家监督及进一步的模型完善。
论文解读:《基于GPT系列大语言模型(LLM)在肝细胞癌(HCC)分层中的表现:肝功能评估、巴塞罗那临床肝癌(BCLC)分期及治疗推荐》
该研究发表于《Scientific Reports》。
一、研究背景与目的
肝细胞癌(Hepatocellular Carcinoma, HCC)是全球癌症相关死亡的主要原因之一,其管理需综合肿瘤负荷、肝功能及患者体能状态(ECOG Performance Status)。巴塞罗那临床肝癌(Barcelona Clinic Liver Cancer, BCLC)分期系统是HCC分层及治疗方案制定的基石,需整合临床、影像及实验室数据来计算白蛋白–胆红素(Albumin-Bilirubin, ALBI)分级、Child–Pugh评分及终末期肝病模型(Model for End-Stage Liver Disease, MELD)评分以判断肝功能储备,并结合病灶数目、大小、大血管侵犯及远处转移情况进行分期。目前上述数据常以非结构化自由文本(临床及影像报告)与参数化表格(实验室数据)分散呈现,需人工整合后方可用于评分计算和分期,耗时且易出错。大语言模型(Large Language Model, LLM)如GPT具备理解与整合异质医学文本及数值信息的能力,已在多个医学领域展现决策支持潜力,但其在HCC精细化BCLC分期与治疗推荐中的系统评估尚不充分。因此,研究人员开展此项回顾性研究,旨在评价不同版本GPT模型在整合HCC患者多源数据后进行肝功能评分计算、BCLC分期及基于2022版BCLC指南生成治疗推荐的准确性、误差来源、时间效率及经济性,探索其作为HCC多学科诊疗(multidisciplinary HCC workflows)决策辅助工具的可行性。
二、主要关键技术方法概述
研究人员开展单中心回顾性研究,纳入2021年1月至2024年10月德国某三级诊疗肝脏中心初诊并经欧洲肝脏研究学会(EASL)确诊的106例HCC患者,排除近3个月接受过HCC治疗或临床/影像/实验室资料不完整者。将每位患者的德文匿名化临床(含合并症、肝性脑病West-Haven分级、ECOG评分)、实验室(白蛋白、胆红素、肌酐、甲胎蛋白AFP、血小板、凝血酶原时间PT及国际标准化比值INR)及放射学报告(病灶数目、最大径、形态、部位、大血管侵犯、腹水、淋巴结或血行转移)合并为单一PDF整合报告。BCLC分期及肝功能评分由≥5年HCC诊疗经验的多学科专家小组盲法 consensus 判定作为金标准(gold standard);MELD按公式 MELD = (0.957×ln(肌酐[mg/dL]) + 0.378×ln(胆红素[mg/dL]) + 1.120×ln(INR) + 0.643)×10 计算,ALBI按公式 ALBI = (log10胆红素[μmol/L] × 0.66) + (白蛋白[g/L] × ?0.085) 计算并分级,Child–Pugh按经典5~6分为A级、7~9分为B级、10~15分为C级。使用OpenAI GPT版本4、o1、o3(2024年12月)及版本5.4思维模式下标准思考力度(2026年4月),在零样本(zero-shot)条件下分别以简略提示(Short Prompt, SP:"使用所附HCC患者信息确定ALBI分级、Child–Pugh评分、MELD评分和BCLC分期,依最新BCLC系统推荐合适治疗方案")和详细提示(Long Prompt, LP:内含ALBI/MELD计算公式、BCLC 2022分期规则及治疗选项说明)提交整合报告,记录肝功能评分、BCLC分期及治疗推荐输出。治疗推荐分为肝移植评估±桥接/降期治疗、手术切除、经动脉化疗栓塞/放射性微球栓塞(TACE/TARE)、全身治疗、最佳支持治疗六类,并与金标准及真实肿瘤委员会决策比较,分为正确(true)、错误(false)及可接受替代(acceptable alternative);错误按来源分类(公式/来源错误、文本/数据解读错误、计算错误及组合)。同时计时(临床人员核查数据可用性+评分计算 vs GPT响应时间)并依据德国大学附属医院薪资进行成本分析。
三、研究结果
研究队列(Study cohort)
共纳入106例HCC患者(男87例[82%],女19例[18%],中位年龄65岁),Child–Pugh A级65例(61%)、B级34例(32%)、C级7例(7%);ALBI 1级34例(32%)、2级60例(57%)、3级12例(11%),平均MELD 12.2±5.9;BCLC 0期4例(4%)、A期43例(41%)、B期24例(23%)、C期22例(21%)、D期13例(12%)。
GPT用于肝功能分析(GPT for liver function analysis)
各GPT版本计算Child–Pugh评分在SP和LP下准确率均>85%(均值93.2±4.1%),版本4错误率最高(SP 13.2%,LP 14.2%),o3最低(SP/LP均为2.8%);新版模型错误多属文本/数据解读错误(class 2),旧版多属公式/来源错误(class 1)。ALBI分级除版本4在SP下仅40.6%准确率外,其余版本–提示组合均>85%(整体均值88.2±18.7%);o3在SP下无误(0.0%),版本4在LP下明显优于SP(12.3% vs 59.4%误差),新版模型无SP/LP显著差异。MELD评分整体准确率偏低(均值74.2±27.1%),版本4在SP下误差高达88.7%,o3(LP 5.7%)及5.4(SP 3.8%)表现较好;早期版本LP优于SP,版本5.4则SP优于LP;MELD误差多源于公式记忆偏差(class 1),版本5.4多为计算错误(class 3)。
GPT用于BCLC分期(GPT for BCLC staging)
BCLC分期整体准确率均值73.3±13.8%,版本4最低(SP 46.2%,LP 56.6%),o3最高(SP 85.8%,LP 79.2%),版本5.4(SP 86.8%)接近o3;LP未一致带来改善,o3与5.4在LP下误差略高于SP但不显著。最主要错误来源为影像学数据误判(class 2:病灶数目/大小/侵犯判断错误),部分来自肝功能评估误差传递(class 1)及临床数据(ECOG)评估错误(class 3)。
GPT用于治疗指导(GPT for therapeutic guidance)
以"正确建议+可接受替代"计总体符合率,o1(LP 90.6%)与o3(LP 89.6%)最高,其次为5.4(LP 86.8%,SP 83.0%),版本4最低(SP 64.2%,LP 69.8%)。单纯正确建议率o3(LP)达84.0%,显著高于版本4(SP 45.3%);错误建议率o1/o3(LP)降至9.4%–10.4%,版本4为30.2%–35.8%。值得注意的是,9%–14%病例中GPT建议回顾性比真实肿瘤委员会决策更符指南,提示LLM可识别人工审阅疏漏。
时间效率与成本分析(Time efficiency and cost analysis)
临床工作人员核查数据可用性+计算肝功能评分平均耗时567.8±59.5秒(约9.5分钟),显著长于所有GPT版本–提示组合;最快为o3(SP) 53.2±24.2秒,版本5.4(LP)最慢129.1±47.3秒但仍远低于人工。每例成本:住院医师$2.44、主治医师$3.92,GPT各版本$0.003–$0.007/例,成本降低约300–1300倍。
四、讨论与结论总结(翻译浓缩)
研究人员发现GPT可整合HCC患者的临床、影像及实验室异质数据完成肝功能评分(Child–Pugh、ALBI、MELD)、BCLC分期及治疗推荐,性能因模型架构与提示策略而异——推理优化模型(o1、o3)显著优于早期版本,详细提示对旧版MELD等复杂计算有助但对新版未必增益。MELD因含对数运算更易出错,BCLC分期主要受限于影像学文本理解偏差。治疗推荐在推理模型下达约90%总体符合率,偶可发现并纠正肿瘤委员会潜在疏漏,其错误率与真实多学科团队相当。时间与经济性优势显著。局限性含单中心回顾性设计、仅德语报告、未测试缺失数据场景及未与其他生物医学LLM比较。综上,基于GPT的大语言模型在HCC肝功能评估、BCLC分期及治疗推荐中展现出作为决策支持工具的潜力,特别是结合推理优化模型与详细提示工程时,可作为多学科HCC工作流程的有价值辅助,但因仍存在不可忽视的错误率,必须经专家监督且需进一步模型完善与前瞻性验证后方可考虑更深度整合入临床路径。