基于常规血液检测的人工智能模型开发用于肝细胞癌筛查——一项全港范围的大规模研究

《ESMO Gastrointestinal Oncology》:Development of a novel routine blood-based AI model for HCC screening—a territory-wide study

【字体: 时间:2025年10月16日 来源:ESMO Gastrointestinal Oncology

编辑推荐:

  本综述报道了一项利用全港范围医疗数据库(含>200万患者)开发的新型血液生物标志物AI模型。该模型仅需常规血液检测指标(如血常规、肝功能等),在早期肝细胞癌(HCC)筛查中展现出卓越性能(灵敏度80%,特异度81%,AUROC 0.894),显著优于传统甲胎蛋白(AFP)检测。研究为改善当前HCC筛查指南提供了高效、可及性强的AI驱动解决方案,对提升早期诊断率具有重要临床意义。

  
引言
原发性肝癌在全球范围内发病率位居第六,其中肝细胞癌(HCC)是最主要的类型,占病例90%以上。在东南亚地区,慢性病毒性肝炎是HCC的主要诱因,加之肝硬化发病率上升,使得HCC成为该地区患者最常见的死亡原因。在香港,超过半数的HCC患者确诊时已处于晚期,可选择的治疗方案有限,这导致HCC成为该地区癌症相关死亡的第三大原因。
目前的HCC检测效果并不理想,主要归因于血清生物标志物灵敏度低以及影像学结果的不确定性。香港癌症登记处的现行筛查指南建议对慢性病毒性肝炎和肝硬化患者每半年进行一次甲胎蛋白(AFP)检测联合腹部超声检查。然而,由于香港40%-50%的HCC病例AFP呈阴性,早期检测的灵敏度仅限于39%-64%。虽然AFP检测的特异度可达76%-91%,但超声检查在肝硬化伴结节性肝脏纹理患者中检测HCC的灵敏度较低,且操作者依赖性的判读显著影响其准确性。
一些新的风险评分系统,如GALAD(性别、年龄、AFP-L3、AFP、DCP)评分,展现出良好的准确性,但其包含的生物标志物(如AFP-L3、DCP)并未被广泛使用。相比之下,常规血液检测(如全血细胞计数CBC、肝功能测试LFTs、肾功能测试RFTs、凝血功能)具有很高的临床依从性,并广泛用于患者随访期间的状况评估。这些基础实验室检查易于获取,可能为包括HCC发生发展相关的各种身体功能状态提供重要信息。然而,常规血液检测各组分间关系复杂,数据常非正态分布且存在异常值,使得传统统计模型效果有限,而机器学习技术更擅长处理此类数据。
患者与方法
数据来源
研究数据来源于香港医院管理局数据协作实验室(HADCL),这是一个全港范围的数据库,包含2000年至2018年间超过200万匿名患者的电子医疗记录,包括影像报告和图像、诊疗记录和实验室检测结果。
队列选择
研究队列筛选流程如图1所示。使用国际疾病分类第九版临床修订(ICD-9-CM)诊断代码,确定了2000年至2018年间诊断为HCC的患者(ICD-9-CM 155),共31,149名。对于慢性肝病(CLD)队列,纳入了诊断为慢性病毒性肝炎或肝硬化的患者。慢性病毒性肝炎患者通过ICD-9-CM代码、抗病毒药物处方或乙型肝炎病毒/丙型肝炎病毒阳性病毒学检测结果确定;肝硬化患者通过ICD-9-CM代码和腹部超声、计算机断层扫描或磁共振成像的影像学报告确定。共识别出88,848名CLD患者。排除了处于失代偿状态(如黄疸、腹水、肝性脑病)或在收到ICD-9-CM代码后30天内无血液检测记录的患者。
常规血液数据、统计分析与AI训练
常规血液检测记录包括CBC、LFTs、RFTs以及凝血功能(如凝血酶原时间PT和活化部分凝血活酶时间APTT)。收集了CLD或HCC诊断前1个月内的血液检测结果。
根据实验室结果年份将患者记录分为训练集、测试集和验证集。2010年至2015年的数据按8:2的比例分为训练和测试队列。2016年至2018年的数据作为验证队列,用于评估基于AI的常规血液标志物对HCC早期检测的临床影响。
模型性能分析
选择了六种机器学习方法构建模型。主要分析通过灵敏度、特异度和受试者工作特征曲线下面积(AUROC)量化其诊断性能,并选择性能最佳的模型。
次要分析展示了最佳模型在不同阈值下的性能,包括漏诊率(1-灵敏度)、阳性预测值(PPV)和阴性预测值(NPV),以确定临床使用的最佳阈值。比较了双临界值和单临界值方法的性能。双临界值法分别在90%灵敏度和90%特异度处设定阈值,形成高风险、中风险、低风险的三级系统。单临界值法则通过最大化漏诊率、特异度、PPV和NPV来确定最佳单一切点,形成阳性/阴性的两级系统。
此外,还进行了年龄标准化分析和合并症分析,以评估模型在不同年龄组和不同病因CLD(如慢性病毒性肝炎与肝硬化)患者中的表现。
临床影响分析
将最佳AI模型的性能与现有的HCC血清筛查指标AFP以及其他已开发的AI驱动诊断评分进行比较。纳入验证队列中在诊断前90天内有AFP测量值的患者,并根据巴塞罗那临床肝癌(BCLC)分期系统进行亚组分析。
可解释AI模型分析
为理解模型中每个变量的相对重要性及其影响方向,通过SHAP(Shapley Additive Explanations)分析获取了各参数对模型输出的平均绝对权重,并利用蜂群图评估了各参数的影响方向,识别了重要性排名前10的参数。
结果
队列特征
本研究共纳入75,096名个体,其中19,670名(26.2%)诊断为HCC。61,393名患者(占总队列81.8%;16,255名HCC阳性,45,138名HCC阴性)被随机按8:2比例分配至训练集和测试集。2016年至2018年的13,703名患者(占总队列18.2%;3,415名HCC阳性,10,288名HCC阴性)作为验证集。
模型性能初步分析
六种机器学习方法(BernoulliNB、决策树、逻辑回归、K近邻分类器、多层感知器分类器、LightGBM分类器)中,LightGBM(LGBM)分类器的整体性能显著优于其他方法,测试队列AUROC为0.894,验证队列AUROC为0.871。在双临界值系统中,LGBM在两个临界点均给出了最高的PPV(分别为0.51和0.71),同时NPV保持在0.9左右。因此,后续分析采用LGBM模型。
阈值优化的次要分析
探索了单最佳性能阈值作为双临界值系统的替代方案。结果显示,在切点值为0.43时,模型性能优异,漏诊率为20%(即灵敏度80%),特异度为0.860,PPV为0.62,NPV为0.92。该模型能在无影像学输入的情况下,以合理精度区分HCC患者与无癌CLD患者。
比较双临界值和单临界值分层系统的性能:三级系统能识别出88.7%的HCC阳性病例(高风险或中风险),而两级系统识别出78.1%。双临界值能有效排除65.5%的HCC阴性病例,单临界值则能排除78.5%。这表明双临界值系统采用严格方法以最小化假阴性,而单临界值系统则在HCC风险监测中产生更少的假警报。
年龄标准化分析
AUROC随年龄增长呈轻微下降趋势,但在所有年龄组中均保持高位(中位数超过0.8)。模型在<40岁最年轻年龄组中性能最高,表明该模型在年轻CLD患者中排除HCC非常有效。AUROC的下降趋势与老年组临床特征一致,因其合并症增多,血液结果更易受混杂因素影响。
合并症分析
结果显示,在完整验证队列中,针对特定病因(仅肝硬化或仅慢性病毒性肝炎)重新训练的模型,其性能均低于使用完整队列(肝炎和肝硬化患者)训练的模型。使用包含肝炎和肝硬化的完整队列训练模型可以提高预测准确性,减少潜在偏倚。结果表明,完整模型可适用于不同病因CLD患者的HCC筛查,无需额外影像学确认合并症即可进行准确预测,增强了临床依从性。
与现有工具的性能比较
结果显示,该模型在所有BCLC分期中均表现出更高的一致性。AFP的准确性从晚期到早期HCC大幅下降约30%,而LGBM模型的准确性从晚期到早期保持稳定。此外,该模型性能与包含AFP-L3和DCP等高度特异性肿瘤标志物的GALAD评分相当,表明仅使用常规血液检测指标和人口统计学数据即可达到同等性能。
与其他已开发的风险评分(如HCC-RS、CU-HCC、GAG-HCC、REACH-B、PAGE-B、REAL-B)相比,该模型AUROC为0.898,表现优异,且在相应临界点下PPV最高(51%和70%),NPV保持90%。
可解释AI模型分析
SHAP蜂群图列出了对AI模型输出影响最大的前10个参数及其影响方向。肝功异常参数,包括天冬氨酸氨基转移酶(AST)、丙氨酸氨基转移酶(ALT)、胆红素和碱性磷酸酶(ALP)的升高,在模型中的重要度分别排名第1、4、8、10位;其次是年龄增长;随后是提示营养不良的指标如肌酐和白蛋白(排名第3、7)以及凝血功能变化(排名第9、11)。较高的AST、胆红素、ALP水平与HCC风险呈正相关,而较高的肌酐、ALT、白蛋白水平则与HCC风险呈负相关(或与CLD状态相关)。这些发现与HCC的病理生理学及既往研究一致。
讨论
HCC以晚期临床表现且缺乏特征性症状而闻名,阻碍了其早期诊断。早期检测很大程度上依赖于对无症状个体的筛查,但当前筛查主要限于已知肝硬化患者,而肝硬化本身又多在专科诊疗下才被筛查。由于多数国家未建立肝脏健康筛查项目,许多具有隐匿风险因素(如未诊断的肝炎感染、慢性酒精中毒、非酒精性脂肪性肝病NAFLD)的患者同样面临风险,却处于常规HCC筛查覆盖范围之外。
在香港,现行实践遵循国际指南,对高风险患者每6个月进行肝脏超声和血清AFP筛查。然而,现有方法灵敏度有限,且较高的筛查成本限制了其在专科护理患者中的应用。在乙肝流行率较高的地区(如亚太地区为5.6%),以及非病毒性肝硬化和NAFLD全球激增的背景下,需要在更广泛人群中主动识别有肝硬化及HCC风险的个体,才能真正实现早期发现。
本研究利用大规模数据库构建模型,队列包含超过7万条患者记录,历时15年,每条记录含31个连续变量。大数据优势减少了异常值对机器学习算法的影响,提升了模型稳健性。队列选择方法有潜力应用于更广泛的HCC风险人群。与多数既往研究仅关注乙肝或丙毒病毒携带者不同,本研究纳入了慢性病毒性肝炎和肝硬化患者,使模型潜在应用人群更广。
该模型所需的常规血液数据易于获取,可行性、可重复性高,且检测项目标准化程度高,实验室间差异小,有利于外部验证。与依赖影像学或昂贵特异性标志物(如GALAD评分中的AFP-L3、DCP)的筛查策略相比,该模型基于廉价、普及的常规检测,使其在资源有限地区(如中低收入国家、基层医疗机构)具有巨大应用潜力。
重要的是,该模型在早期HCC检测中表现出色,灵敏度在不同BCLC分期间保持稳定,显著优于随分期提前而性能下降的AFP。其性能与使用特异性标志物的GALAD评分相当,甚至优于其他机器学习方法。
该AI模型的风险分层阈值可根据临床需求(高灵敏度或高特异度)灵活调整,三级系统灵敏度高(识别88.7%病例),单临界值系统特异度高(排除78.5%真阴性),使其成为一种多功能的筛查工具。
针对AI模型的“黑箱”疑虑,本研究通过SHAP分析证实了预测变量与结局之间存在临床合理的关联。模型中权重较高的参数(如AST、ALT、胆红素、白蛋白、PT)及其影响方向与HCC的临床病理特征相符,增强了模型的可解释性和临床可信度。
局限性
本研究存在一定局限性。为减少混杂,队列选择排除了有其他恶性肿瘤病史的患者,因此模型可能不适用于此类人群。基于医疗数据库的大数据分析,其可靠性依赖于诊断代码录入的及时性和完整性。香港门诊实践中诊断编码非强制项,可能导致部分患者未被纳入分析。研究者通过结合实验室结果和药物处方等多种信息来弥补这一弱点。未来需要进行多中心临床研究以确认该AI血液检测的准确性和实用性,并探索其在初级保健和专科医疗等不同层级医疗机构的应用潜力。
结论
总之,这项基于AI的常规血液检测模型为补充现有HCC筛查措施提供了一种易于实施、准确性高的方法。有望通过该模型的实施实现早期诊断,从而显著降低HCC相关死亡率。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号