基于多模型对比的甲状腺乳头状癌淋巴结转移风险术前预测:提升临床决策精准性的新策略

【字体: 时间:2025年10月10日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对甲状腺乳头状癌(PTC)手术中淋巴结清扫范围的临床争议,通过系统比较四种逻辑回归(LR)模型与四种机器学习(ML)算法,构建了术前预测淋巴结转移(LNM)风险的优化模型。研究发现基于最佳子集回归(BestSubset)筛选的LR模型(BestSubset_GLM)在内部验证(AUC=0.770)和中外人群外部验证(中国队列AUC=0.831;加拿大队列AUC=0.785)中均表现出优异泛化能力,其高特异性(0.86)和精准校准特性(Brier Score<0.20)可为临床提供可靠决策支持。该模型通过动态列线图实现可视化应用,有效平衡模型简约性与预测准确性,为个体化手术方案制定提供了重要工具。

  
甲状腺癌是全球最常见的内分泌恶性肿瘤,其中甲状腺乳头状癌(Papillary Thyroid Carcinoma, PTC)约占所有病例的85%。虽然PTC通常预后良好,但淋巴结转移(Lymph Node Metastasis, LNM)是其常见转移方式,与局部复发和远处转移风险增加密切相关。目前临床上面临的重要难题是如何在术前准确评估LNM风险,从而优化手术方案选择——过度实施淋巴结清扫可能增加甲状旁腺功能减退和喉返神经损伤等并发症风险,而清扫不足则可能导致肿瘤残留和复发。
当前已有多种预测模型被开发用于评估PTC患者的LNM风险,但这些模型大多基于单一机构数据或传统统计数据库(如SEER),存在样本量有限、变量收集不全面等问题。此外,不同研究采用的建模方法和变量选择策略差异较大,导致模型间存在显著异质性,预测性能也存在明显局限。随着人工智能技术的快速发展,机器学习(Machine Learning, ML)方法在医疗领域的应用日益广泛,其在处理复杂高维数据方面展现出优势,但"黑箱"特性限制了其临床转化。因此,系统比较传统逻辑回归(Logistic Regression, LR)模型与各种ML算法的性能差异,开发既准确又可解释的预测工具,具有重要临床意义。
近期发表在《Scientific Reports》的一项研究针对这一临床需求,开展了多模型对比研究,旨在开发一个全面评估PTC患者LNM风险的预测模型,并为临床提供个性化决策支持工具。
研究人员通过收集3175例PTC患者(2021年队列)数据,随机分为训练集(70%)和测试集(30%),并采用中国2024年队列(n=104)和加拿大2019-2022年队列(n=412)进行外部验证。研究筛选了12个预测因子,包括人口学特征(年龄、性别)、临床病理特征(甲状腺外侵犯、肿瘤大小)、细胞病理学分类(Bethesda系统I-VI类)和分子谱(包括BRAF p.V600E突变、RAS突变、RET重排等8种基因组变异)。通过多种变量选择方法(单变量分析、最佳子集回归、LASSO正则化、随机森林引导特征优先)构建了四种LR模型和四种ML模型(随机森林、支持向量机、XGBoost和AutoScore),并采用判别能力(AUC)、校准(Brier Score)、分类准确性和临床效用等多维指标进行系统评估。
研究结果
研究队列特征
研究筛选了525例LNM状态明确的病例(km数据集),其中181例(34.48%)存在LNM。中国外部验证队列(ch_valid)和加拿大外部验证队列(ca_valid)的LNM发生率分别为36.54%和30.10%。样本量充足性通过事件每变量(EPV)分析验证,训练集的初始EPV为10.7,特征选择后最终EPV为12.8-25.6,符合推荐的10-15 EPV阈值。
初步特征筛选
单变量分析显示,LNM与年龄、女性性别、甲状腺外扩展(ETE)、Bethesda III-VI类、肿瘤大小、BRAF p.V600E突变、RAS突变、RET异常和未检测到分子改变显著相关(所有P<0.05)。多变量分析进一步确定ETE(比值比[OR] 2.063)和肿瘤大小超过1.00 cm(OR 4.609)是LNM的独立正向预测因子,而年龄(OR 0.957)和女性性别(OR 0.639)是LNM的独立负向预测因子。
LR模型开发与动态列线图可视化
四种LR预测模型在测试数据集上表现出相当的预测性能,其中基于随机森林特征筛选的模型(RFFilter_GLM)在km_test上AUC最高(0.775),但在外部验证集中表现最差。相比之下,BestSubset_GLM表现最佳,在ch_valid和ca_valid上的AUC值分别为0.831和0.785,优于全变量模型(Full_GLM)的0.827和0.777。
为增强临床可及性,基于BestSubset_GLM的动态列线图整合了常规术前变量(年龄、性别、肿瘤大小、BRAF p.V600E突变状态等)以计算实时LNM风险概率。该工具可通过网络计算器或移动应用程序部署,使临床医生能够输入患者数据并获得可视化风险分层结果,以指导预防性淋巴结清扫决策。
研究人员通过匹配病例分析验证了模型的判别能力。两名41岁女性PTC患者(均为Bethesda V类,BRAF p.V600E阳性)表现出不同的病理表型:Case 11(肿瘤大小1.10 cm伴包膜外侵犯)术后病理确认LNM,而Case 131(肿瘤大小0.4 cm包膜完整)无LNM。模型生成的风险概率显著不同(Case 11: 0.943-0.887; Case 131: 0.369-0.402),突出了模型基于肿瘤大小和ETE状态分层LNM风险的能力。
ML模型开发与SHAP可解释性
三种ML预测模型使用不同的特征选择方法开发:随机森林(RF)算法确定了六个关键预测因子(年龄、未检测到分子改变、肿瘤大小超过1.00 cm、BRAF p.V600E突变、女性性别和Bethesda V类);递归特征消除(RFE)选择了六个变量,保留了五个RF识别特征,但将性别替换为ETE;排列特征重要性(PFI)分析与RFE选择的预测因子集一致。
性能
性能评估显示,RFFilter_RF在km_test上AUC最高(0.767),而PFI_XGBoost在两个验证集(ch_valid和ca_valid)中表现出更好的外推和泛化能力(AUC分别为0.785和0.725)。SHAP分析表明,年龄和肿瘤大小超过1.00 cm是所有模型中的主要全局预测因子。散点图颜色强度表明,肿瘤大小超过1.00 cm、FNA_Bethesda V、BRAF p.V600E突变和ETE与PTC患者LNM可能性正相关;相反,年龄、未检测到分子改变和女性性别呈负相关。
AutoScore模型构建与风险评分解释
使用基于ML的AutoScore框架开发了PTC中LNM的风险分层工具。两种不同的变量排序方法显示出相当的判别性能(ΔAUC≤0.11)。基于AUC优化特征选择的AutoScore模型被选为代表框架,最终评分模型包括未检测到分子改变、BRAF p.V600E突变、年龄、FNA_Bethesda V和肿瘤大小超过1.00 cm五个变量。该模型在km_test、ch_valid和ca_valid上的AUC值分别为0.749、0.732和0.687。
评分表和交互式图谱使临床医生能够快速构建透明和可解释的临床评分,便于临床应用。
模型性能比较
判别性能通过ROC曲线分析评估,所有预测模型在测试集上的AUC性能相当,但LR模型在变量筛选协议下表现出优于ML方法的跨人群泛化能力。如图6D-E所示,LR模型在中国队列(ΔAUC=+0.046)中保持稳定,在加拿大队列(ΔAUC=-0.003)中性能下降最小。相反,ML模型在不同种族队列中表现出显著性能变异(中国队列ΔAUC=+0.004 vs. 加拿大队列ΔAUC=-0.065),表明对变量选择和人群特征均具有增加敏感性。
准确
准确度比较显示,在内部验证中,RFFilter_RF达到最高准确度(72.3%),略微优于Full_GLM(71.1%)和RFFilter_GLM(71.1%)。外部验证显示出不同的准确度模式:在同类中国队列中,UniFilter_GLM、BestSubset_GLM和LASSO_GLM保持优势(75.0%, 74.0%, 73.1%);而在异质加拿大队列中,UniFilter_GLM成为表现最佳者(74.8%),超过Full_GLM和BestSubset_GLM 0.8%,并显著超过所有ML模型(66.0%-70.4%)。
指标特异性分析表明,在测试队列中,RFFilter_RF和RFE_SVM具有最高特异性(0.91和0.89)但精确度不理想(0.69和0.61),而AUC_AutoScore达到峰值灵敏度(0.85)但特异性降低(0.58)。在中国队列中,UniFilter_GLM、BestSubset_GLM和LASSO_GLM在精确度(0.60-0.62)和F1分数(0.67-0.70)方面占主导;在加拿大队列中,UniFilter_GLM和BestSubset_GLM表现出相同的特异性(0.86),但UniFilter_GLM在精确度(0.60 vs. 0.59)、灵敏度(0.48 vs. 0.47)和F1分数(0.54 vs. 0.52)方面略微优于BestSubset_GLM。
校准分析揭示了关键的模型特异性变异。在内部队列中,LR模型在低风险层(概率<50%,曲线高于对角线)表现出系统性的过度预测,在高风险范围(>50%,曲线低于对角线)表现出预测不足,形成倒S型模式。四个LR模型具有相似的校准斜率(0.663-0.696),但外部验证表现出非线性偏差。中国队列显示在0-60%概率范围内逐渐过度预测,60%以上准确度平稳;而加拿大队列显示初始过度预测(0-60%概率与对角线相交)随后预测不足(>60%)。三个ML模型(RF/SVM/XGBoost)在所有队列中均表现出与预期校准模式的系统偏差,表明将传统LR-based评估标准应用于这些算法存在潜在方法学限制。
整合AUC、分类指标和校准分析,BestSubset_GLM因其在高异质队列中具有高AUC(0.785)、特异性(0.86)、精确度(0.59)和校准稳健性(斜率0.545)以及更简单的特征集(6个变量)而成为避免不必要淋巴结清扫的优选。
临床有用性评估
决策曲线分析(DCA)用于评估每个模型在不同阈值概率下的净收益,从而评估其临床效用。在测试和验证集中,DCA显示RFFilter_RF在整个阈值范围(0.15-0.9)内表现最优,其次是RFE_SVM。如图9所示,在测试集(km_test队列)中,在约15-90%的阈值概率范围内使用这些预测模型比"筛查所有"和"不筛查"策略显示出更高的净收益。
在验证集中,第一个验证集(ch_valid队列)中10-85%的阈值概率和第二个验证集(ca_valid队列)中20-70%的阈值概率显示出有利结果。值得注意的是,虽然RFFilter_RF在测试集中表现出最优性能,但BestSubset_GLM在外部验证中表现出更优的稳定性:在中国队列中,其在20%-75%阈值概率下的净收益超过其他LR/ML模型(在临床常见的30%-60%范围内比Full_GLM高8%-12%);在加拿大队列中,其在25%-80%阈值下保持最高稳定性,在40%-55%范围内具有最陡斜率(对应"中度LNM怀疑"场景),表明在平衡过度治疗和漏诊风险方面具有优势。
研究结论与意义
本研究通过系统比较多种预测模型,证实基于最佳子集回归筛选的LR模型(BestSubset_GLM)在预测PTC患者术前LNM风险方面表现出最优的综合性能。该模型不仅具有较高的判别能力(AUC=0.770-0.831)和校准特性,还展现出良好的跨人群泛化能力,在中国和加拿大队列中均保持稳定性能。
研究发现甲状腺外扩展、肿瘤大小超过1.00 cm、较低年龄和男性性别是LNM的关键风险因素,同时整合了Bethesda分类和分子变异等术前可用指标。模型通过动态列线图实现可视化应用,使临床医生能够基于常规术前变量计算个体化LNM风险概率,为手术决策提供量化依据。
研究的临床意义在于:首先,通过多维评估框架超越单一的AUC指标,全面评估模型性能,为临床预测模型的选择和优化提供了更可靠的指导;其次,采用中外多队列验证,系统评估模型在不同临床和人口学背景下的外推泛化能力,增强了模型的实用价值;最后,通过动态列线图和风险评分系统,将复杂模型转化为临床可用的工具,促进了研究成果向临床实践的转化。
该研究的局限性包括样本量相对有限、外部验证队列依赖文献数据可能引入种族或地理偏差、预测准确性约70%仍有提升空间,以及缺乏区域淋巴结分区数据等。未来研究应优先考虑具有细化区域淋巴结数据、延长随访时间和丰富变量的队列,以增强模型泛化能力和精确性,特别是对亚型特异性LNM预测。
总之,这项研究为PTC患者术前LNM风险评估提供了可靠工具,通过多模型比较和多维验证,为临床个体化决策支持提供了重要依据,有望在平衡治疗效益和避免过度治疗方面发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号