《JMIR Medical Informatics》:Advancing Gastrointestinal Cancer Risk Prediction With Patient-Centered Machine Learning: Machine Learning Modeling Study
编辑推荐:
背景:胃肠(GI)癌症是韩国一个重要的健康问题。近年来,机器学习(ML)模型已成为支持早期筛查工作和在疾病发生前识别高危人群的有力工具。然而,前瞻性队列中胃肠道恶性肿瘤的低发病率导致了严重的类别不平衡,常常使ML模型偏向于多数“健康”类别,以牺牲临床敏感性为代
背景:胃肠(GI)癌症是韩国一个重要的健康问题。近年来,机器学习(ML)模型已成为支持早期筛查工作和在疾病发生前识别高危人群的有力工具。然而,前瞻性队列中胃肠道恶性肿瘤的低发病率导致了严重的类别不平衡,常常使ML模型偏向于多数“健康”类别,以牺牲临床敏感性为代价。目的:本研究旨在评估类别不平衡缓解策略,并使用与可改变行为和新陈代谢危险因素相关的非侵入性或微创预测因子开发基于ML的GI癌症风险预测模型。方法:研究人员分析了一个前瞻性队列(n=7652),在14年随访期间确定了156例新发GI癌症病例(2%)。数据被随机分为训练集(5356/7652,70%)和测试集(2296/7652,30%)。为解决类别不平衡问题同时保留观察到的群体结构,研究人员开发了一种基于频率匹配病例对照研究逻辑的患者中心欠采样技术(PCUSTe)。PCUSTe与常用的重采样方法(包括合成少数类过采样(SMOTE)、自适应合成采样(ADASYN)以及SMOTE结合编辑最近邻(ENN))进行比较。实施了六种分类器,包括批量训练和增量训练变体。为考虑重采样引入的先验偏移,应用了概率校正。模型性能在独立测试集上使用等于训练数据中观察到的事件比例(累积发病率)的分类阈值进行评估,然后在反映1%至5%之间发病率值的阈值下进行评估。主要性能指标包括敏感性、特异性、马修斯相关系数(MCC)和受试者工作特征曲线下面积(AUC)。结果:与标准重采样技术相比,使用PCUSTe训练的模型显示出改善的敏感性,特别是对于更复杂的分类器。增量训练的随机梯度下降(SGD)模型在PCUSTe数据上训练取得了最高整体性能,敏感性为0.77(95% CI 0.64‐0.89),特异性为0.65(95% CI 0.63‐0.67),AUC为0.77(95% CI 0.70‐0.84),马修斯相关系数为0.12(95% CI 0.08‐0.16)。相比之下,逻辑回归(LR)在无重采样情况下实现了平衡性能(敏感性0.70,95% CI 0.57‐0.83;特异性0.71,95% CI 0.69‐0.72;AUC 0.75,95% CI 0.68‐0.82)。结果表明,PCUSTe主要增强了更复杂模型的敏感性,但以特异性为代价。结论:整合流行病学原理(包括协变量频率匹配和基于训练数据中观察到的累积发病率的阈值选择)改善了GI癌症风险预测中少数类的检测。然而,模型性能因算法而异,在某些情况下,仅调整决策阈值即可达到与数据重采样相当或更优的结果。这些发现强调了根据建模目标仔细选择不平衡缓解策略的重要性。所得模型的敏感性水平可能适用于队列环境中的早期风险识别,并有助于个性化风险分层和针对性预防或筛查策略。
在全球范围内,胃肠(GI)癌症是重大健康负担,2022年新增近500万例,死亡超过300万例。预测模型在高风险个体识别和精准预防中至关重要,但前瞻性队列研究中癌症病例占比极低,导致严重的类别不平衡问题,使得机器学习(ML)模型倾向于多数非癌类别,而牺牲了对癌症病例的敏感性。此外,现有研究多依赖于横断面研究中的相对平衡数据集、狭窄的预测因子集合或传统统计模型,难以充分捕捉风险因素间复杂的非线性交互作用。为此,本研究旨在评估多种类别不平衡缓解策略,并基于可改变的行为和代谢危险因素,开发以患者为中心的ML胃肠癌风险预测模型。研究使用了韩国国家癌症中心(KNCC)筛查队列数据,包含7652名参与者(156例新发胃肠癌,发生率2%),并提出了患者中心欠采样技术(PCUSTe)。结果显示,PCUSTe结合增量随机梯度下降(SGD)模型取得了综合最优性能,敏感性0.77,特异性0.65,AUC 0.77。该研究为高风险个体识别提供了可行方案,相关成果发表在《JMIR Medical Informatics》上。
研究人员为开展研究主要使用了以下关键技术方法:基于韩国国家癌症中心(KNCC)筛查队列(n=7652,156例胃肠癌),将数据分为训练集(70%)和测试集(30%)。开发了基于频率匹配病例对照逻辑的患者中心欠采样技术(PCUSTe),并与合成少数类过采样(SMOTE)、自适应合成采样(ADASYN)以及SMOTE结合编辑最近邻(ENN)进行比较。实施了六种分类器:逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、极限梯度提升(XGBoost)及其增量变体,以及随机梯度下降(SGD)增量模型。对重采样数据应用概率校正,决策阈值设为训练集累积发病率(2%)。主要评估指标为敏感性、特异性、马修斯相关系数(MCC)和受试者工作特征曲线下面积(AUC)。
研究结果如下:
**研究参与者特征**:通过比较基线特征,发现胃肠癌病例组男性比例更高、年龄更大、更常吸烟、收入较低,且具有更高的BMI、收缩压(SBP)、舒张压(DBP)、空腹血糖、天冬氨酸氨基转移酶(AST)和γ-谷氨酰转移酶(GGT),以及更低的高密度脂蛋白胆固醇(HDL)和某些膳食营养素(如纤维、维生素C)摄入量。
**数据重采样策略**:
- **患者中心欠采样方法(PCUSTe)**:PCUSTe增强了非线性模型的性能,但线性模型对重采样不敏感。仅调整阈值即可稳定逻辑回归(LR)性能,使其达到敏感性和特异性均为0.7的平衡。
- **合成过采样方法**:合成过采样方法的k近邻(k-NN)参数调优显著影响性能,较大k值(占少数类样本10%-80%)通常优于默认设置(k=5)。默认设置下,过采样导致复杂模型过拟合。
**机器学习建模**:
- **预测因子选择**:SHAP分析显示,线性模型和增量模型更强调膳食暴露(如宏观营养素、饱和脂肪酸),而树模型优先考虑临床和生理标志物(如血压)。年龄在所有模型中均为重要预测因子。
- **超参数优化**:随机搜索(RS)根据重采样策略和优化指标产生不同的最优超参数配置。逻辑回归、随机森林和XGBoost在PCUSTe-1重采样下达到最高交叉验证AUC,而支持向量机在SMOTE下达到最高。
- **性能评估**:
- **总体表现**:在极不平衡条件下,无重采样模型通过阈值调整(设为训练累积发病率)可获得中等判别性能。逻辑回归(LR)在无重采样时达到最佳平衡(测试敏感性0.70,特异性0.71,AUC 0.75)。欠采样一致提高了所有模型的敏感性,而过采样倾向于提高特异性但降低敏感性。
- **逻辑回归(LR)模型**:在无重采样、默认参数下表现最佳,无过拟合迹象。
- **SGD模型**:增量训练的SGD(结合PCUSTe-1,无调优)取得最高整体性能,敏感性0.77(95% CI 0.64-0.89),特异性0.65,AUC 0.77,MCC 0.12。训练和测试性能高度一致。
- **随机森林(RF)模型**:在PCUSTe-2数据上训练,测试敏感性0.77,特异性0.62,但训练AUC完美(1.00),存在过拟合。
- **XGBoost模型**:批训练XGBoost在SMOTE+ENN(k=54)上测试敏感性0.77,特异性0.60,但训练AUC 0.98,存在显著过拟合。增量XGBoost性能略低且过拟合更严重。
- **支持向量机(SVM)模型**:SVM达到最高敏感性0.79(95% CI 0.67-0.90),但特异性0.60,AUC 0.74。过拟合程度低于树模型。
- **数据分布分析**:主成分分析(PCA)和距离分析表明,PCUSTe保持了病例的自然稀疏分布,而过采样生成靠近原始样本的合成点,未创建线性分隔。SMOTE+ENN通过清理边缘样本增加了稀疏性。
**讨论**:本研究强调极端类别不平衡显著影响ML性能。PCUSTe结合增量SGD模型在不依赖合成数据的情况下取得了稳定测试性能,而线性模型仅通过阈值调整即可获得平衡表现。过采样导致复杂模型过拟合,尤其在默认k-NN设置下。与既往研究一致,LR在过采样数据上优于复杂分类器。PCUSTe的灵活参数化允许适应不同数据集。决策阈值调整(基于观察发病率)可作为重采样的替代策略。本研究的优势包括使用纵向队列数据、引入可定制匹配的PCUSTe框架,以及全面的比较分析。局限性包括膳食自报偏倚、缺乏外部验证、病例数有限限制部位特异性分析等。未来需在更大、更多样化队列中进行外部验证。
**结论**:本研究表明,类别不平衡缓解策略是ML模型在胃肠癌风险预测中的关键决定因素。通过纳入流行病学匹配原则,PCUSTe在多个模型架构上优于传统过采样和混合方法。然而,仅基于发病率的决策阈值调整结合基线LR模型在敏感性和特异性之间取得了更好平衡。这些发现强调了将ML工作流与现实世界人群特征对齐以增强小、高度不平衡数据集中少数类检测的价值。此外,最佳类别不平衡缓解策略的选择可能因研究目标而异。