可解释的人工智能在韩国结直肠癌死亡率和风险因素预测中的应用:一项全国性的癌症队列研究

《International Journal of Nursing Studies》:Explainable AI for colorectal cancer mortality and risk factor prediction in Korea: A nationwide cancer cohort study

【字体: 时间:2025年10月08日 来源:International Journal of Nursing Studies 7.1

编辑推荐:

  结直肠癌预后AI模型研究揭示年龄特异性风险因素,基于韩国全国队列数据开发可解释模型,SHAP分析显示肿瘤分期、CEA水平为核心预测因子,年轻患者代谢指标(血压、胆固醇)影响显著,LightGBM算法AUC达0.824-0.867,为亚洲精准肿瘤学提供新工具

  这项研究针对韩国人群中的结直肠癌(Colorectal Cancer, CRC)患者,旨在开发一个具有可解释性的机器学习模型,以准确预测患者的总体死亡率和结直肠癌特异性死亡率。随着全球范围内结直肠癌发病率的上升,尤其是年轻人群中的高发趋势,建立一个适用于亚洲人群的精准预测模型显得尤为重要。研究团队指出,尽管已有大量关于结直肠癌预后因素的研究,但大多数基于西方人群的数据,难以直接应用于韩国患者,这使得现有模型在韩国临床环境中的适用性受到限制。因此,本研究选择使用韩国全国范围内的癌症队列数据,结合机器学习与可解释性人工智能(Explainable AI, XAI)技术,探索更具针对性和实用性的预测方法。

研究采用回顾性队列研究方法,数据来源于韩国癌症公共图书馆数据库(Korean Cancer Public Library Database, CPLD)。该数据库是基于韩国K-CURE计划建立的,包含了约136万例从2012年至2019年间诊断的癌症病例,并对患者的预后进行了跟踪。研究人员分析了9,069例结直肠癌患者的总体死亡情况(共1,878例死亡)和8,589例患者的结直肠癌特异性死亡情况(共1,398例死亡)。为了评估模型的预测能力,研究团队构建了四种主流的机器学习算法模型,包括支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)、XGBoost和LightGBM。这些模型不仅能够捕捉临床变量之间的复杂关系,还能通过SHAP(Shapley Additive exPlanations)等可解释性AI技术,对模型的预测结果进行解释,以增强临床适用性和信任度。

研究结果显示,所有构建的机器学习模型在区分能力方面表现良好,其曲线下面积(Area Under the Curve, AUC)值均在0.82至0.94之间。其中,LightGBM模型在总体死亡率预测中表现最佳,其AUC值为0.824(95%置信区间为0.80–0.85)。而在结直肠癌特异性死亡率预测中,LightGBM模型同样表现出色,其AUC值达到0.867(95%置信区间为0.84–0.89)。这些结果表明,LightGBM模型在预测患者死亡风险方面具有较高的准确性。同时,SHAP分析进一步揭示了影响死亡率的关键预测因子。研究发现,肿瘤分期和癌胚抗原(Carcinoembryonic Antigen, CEA)水平是影响所有年龄段患者死亡率的主要因素。而在年轻患者群体中,代谢相关的指标,如高血压、胆固醇水平和肝酶异常,对死亡率的预测作用更为显著。

这一发现具有重要的临床意义。传统统计模型,如线性回归或Cox比例风险模型,通常难以捕捉临床变量之间的非线性和交互作用,而这些复杂的变量关系对患者的预后有着深远的影响。相比之下,机器学习模型能够更好地处理这种非线性关系,从而提供更准确的预测结果。然而,由于这些模型通常被视为“黑箱”,其预测结果难以被临床医生理解和信任,这在一定程度上限制了它们在实际医疗决策中的应用。因此,研究团队引入了可解释性AI技术,特别是SHAP方法,以量化每个预测因子对模型输出的贡献,并为医生提供清晰、具体的解释。通过这种方式,模型不仅能够提高预测的准确性,还能增强其在临床环境中的透明度和可接受性。

在患者特征分析中,研究发现,总体死亡率的预测中,存活患者与非存活患者在诊断时的年龄存在显著差异。存活患者平均年龄为63.2岁(标准差为10.3岁),而非存活患者则为68.3岁(标准差为10.3岁),且这种差异具有统计学意义(P < 0.001)。此外,男性患者在总体死亡率和晚期发病群体中的死亡率均高于女性患者(P < 0.001),这表明性别可能是一个重要的预后因素。非存活患者的临床特征更差,包括更高级的AJCC T3–T4肿瘤分期、淋巴结转移以及远处转移等。这些结果进一步支持了肿瘤分期和相关病理特征在预测患者预后中的核心作用。

在关键风险因素的分析中,研究团队通过SHAP方法对模型的预测结果进行了深入解读。他们发现,肿瘤负担指标(如AJCC分期和癌胚抗原水平)是影响患者总体和结直肠癌特异性死亡率的最强预测因子。具体而言,肿瘤分期越晚(如T3–T4),患者的死亡风险越高。此外,癌胚抗原水平超过5 ng/mL的患者,其死亡风险也显著增加。这些发现与现有的临床指南和研究结果一致,进一步验证了这些指标在结直肠癌预后评估中的重要性。然而,研究还发现,代谢相关因素在年轻患者中的作用更为突出。例如,高血压、高胆固醇水平以及肝酶异常等指标,对年轻患者的死亡率预测具有更高的贡献度。这表明,在年轻人群中,除了传统的肿瘤分期和生物标志物外,代谢健康状况可能对患者的预后产生更为深远的影响。

这些发现为临床实践提供了新的视角。在结直肠癌的管理中,除了关注肿瘤本身的生物学特性外,还需要考虑患者的整体健康状况,尤其是代谢相关的指标。这提示医生在评估年轻患者时,应更加重视这些因素,并在制定个体化治疗方案时,将它们纳入考虑范围。此外,研究结果还表明,不同年龄段的患者可能具有不同的风险特征,这意味着在临床实践中,需要根据患者的年龄进行分层分析,以更精准地预测其预后并制定相应的干预措施。

本研究的另一个重要贡献在于其方法学上的创新。通过使用全国范围内的韩国癌症队列数据,研究团队确保了数据的代表性和统计学效力,这为模型的泛化能力提供了有力支持。同时,结合机器学习和可解释性AI技术,不仅提高了模型的预测性能,还增强了其在临床环境中的可解释性。这种结合使得AI模型能够更直观地向医生和患者解释其预测结果,从而促进其在医疗决策中的应用。此外,研究团队还强调了模型在临床应用中的重要性,认为这种可解释的AI模型可以为医生提供更深入的临床洞察,帮助他们更好地识别高风险患者,并据此制定个性化的随访和治疗策略。

在研究的局限性方面,团队指出,尽管使用了全国范围内的数据,但该研究仍可能存在一定的局限。例如,数据的收集和分析过程可能受到某些变量缺失或测量误差的影响,这可能会影响模型的准确性。此外,由于研究数据主要来源于医疗记录,因此可能存在某些偏倚,如诊断偏倚或治疗偏倚。研究团队还提到,虽然SHAP分析能够提供一定的可解释性,但模型的解释结果仍然需要进一步验证,以确保其在不同临床环境中的适用性。因此,未来的研究可以考虑扩展数据来源,增加更多类型的变量,如基因组学数据或患者的生活方式信息,以进一步提高模型的预测能力和临床适用性。

本研究的成果不仅对韩国的结直肠癌患者具有重要的临床价值,也为亚洲地区的癌症研究提供了新的思路。在全球范围内,结直肠癌的发病率和死亡率正在上升,尤其是在年轻人群中,这种趋势尤为明显。因此,开发适用于亚洲人群的精准预测模型,对于改善患者预后、优化医疗资源分配以及推动精准医学的发展具有重要意义。此外,研究团队还强调,通过结合可解释性AI技术,能够将复杂的机器学习模型转化为临床医生可以理解和应用的工具,从而在实际医疗决策中发挥更大的作用。

总之,这项研究通过构建可解释的机器学习模型,为韩国结直肠癌患者的死亡率预测提供了新的方法。模型不仅能够准确识别传统临床指标的重要性,还能够揭示年轻患者中代谢相关因素的独特作用。这种结合了机器学习与可解释性AI技术的方法,有助于提高模型的临床实用性,并为精准医学的发展提供支持。未来的研究可以进一步探索这些模型在不同亚人群中的适用性,并结合更多临床数据,以实现更全面的预后评估。同时,随着AI技术在医疗领域的不断进步,可解释性AI的应用将成为提升医疗决策质量的重要方向。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号