
-
生物通官微
陪你抓住生命科技
跳动的脉搏
可访问的模型预测激素受体阳性HER2阴性乳腺癌接受新辅助化疗的反应
【字体: 大 中 小 】 时间:2025年02月07日 来源:npj Breast Cancer 6.6
编辑推荐:
在乳腺癌的研究领域,来自意大利圣心天主教大学(Università Cattolica del Sacro Cuore)医学肿瘤学系等多个单位的研究人员取得了重要进展。第一作者 Luca Mastrantoni 所在的研究团队在 npj Breast Cancer 期刊上发表了题为 “Accessible model predicts response in hormone receptor positive HER2 negative breast cancer receiving neoadjuvant chemotherapy” 的论文。这一研究成果意义重大,为激素受体阳性、人表皮生长因子受体 2 阴性(HR+/HER2-)乳腺癌患者接受新辅助化疗(NACT)的疗效预测提供了新的方法和思路,有望改善该类患者的临床治疗决策,推动乳腺癌精准治疗的发展。
在乳腺癌的研究领域,来自意大利圣心天主教大学(Università Cattolica del Sacro Cuore)医学肿瘤学系等多个单位的研究人员取得了重要进展。第一作者 Luca Mastrantoni 所在的研究团队在 npj Breast Cancer 期刊上发表了题为 “Accessible model predicts response in hormone receptor positive HER2 negative breast cancer receiving neoadjuvant chemotherapy” 的论文。这一研究成果意义重大,为激素受体阳性、人表皮生长因子受体 2 阴性(HR+/HER2-)乳腺癌患者接受新辅助化疗(NACT)的疗效预测提供了新的方法和思路,有望改善该类患者的临床治疗决策,推动乳腺癌精准治疗的发展。
乳腺癌是女性最常见的癌症,其中 HR+/HER2 - 亚型约占病例的 65%。新辅助治疗在 HER2 阳性和三阴性乳腺癌中已成为标准治疗方案,它不仅能使肿瘤降期,便于进行保乳手术和使局部晚期肿瘤可切除,还能在治疗过程中评估疗效,病理完全缓解(pCR)是预测复发风险的重要生物标志物。然而,在 HR+/HER2 - 乳腺癌中,NACT 后的 pCR 率通常较低,仅为 10%-20%。并且,NACT 虽有助于早期清除微转移病灶,但可能会因延迟手术而增加对化疗不敏感癌症的转移风险。鉴于 NACT 后病理残留疾病的预后作用以及该亚型乳腺癌的低 pCR 率,研究人员一直致力于寻找能够预测患者对 NACT 反应的方法。虽然临床病理因素与 pCR 有关,但单独考察时,其预测价值较弱。在过去二十年中,机器学习(ML)技术在癌症预测领域得到广泛应用,但基于治疗前临床病理特征预测 NACT 后 pCR 的研究较少,且以往研究未针对不同乳腺癌亚型进行深入探讨。因此,本研究旨在开发并验证一种基于 NACT 前临床和病理特征的 ML 模型,以帮助临床医生预测 HR+/HER2 - 乳腺癌患者的 pCR 情况。
本研究为回顾性纵向队列研究,即 CORALAINE 研究。研究对象为 2001 年 1 月 1 日至 2021 年 5 月 31 日期间,经病理确诊为 HR+/HER2 - 浸润性乳腺癌的患者。这些患者为早期或局部晚期(I - III 期),接受了以蒽环类和 / 或紫杉类为基础的新辅助化疗,并进行了原发性乳腺癌手术。研究数据来自两个队列,内部队列来自意大利两家机构(罗马圣心天主教大学附属医院的医学肿瘤学部门和妇科肿瘤学部门),随机分为训练集和内部验证集;外部验证队列来自意大利另外三家机构(帕多瓦大学的威尼托肿瘤研究所、维罗纳大学综合大学医院和乌迪内大学肿瘤学部门)。
收集患者术前的临床数据,包括绝经状态、年龄、原发肿瘤大小、临床淋巴结状态、组织学、分级、雌激素受体(ER)、孕激素受体(PR)状态、HER2 表达、Ki67 值、化疗方案和时间等;术后数据包括 pCR、肿瘤大小(ypT)、淋巴结状态(ypN)、分级(G)、ER 和 PR 表达、Ki67、HER2、手术类型和辅助激素治疗等。其中,pCR 定义为新辅助系统治疗完成后,切除的乳腺标本和所有采样的区域淋巴结经苏木精 - 伊红染色评估无残留浸润性癌。
数据预处理:对内部队列进行 80/20 分割,得到训练集和内部验证集。处理零方差和近零方差变量,将年龄、ER、PR 和 Ki67 表达视为连续变量,对其他分类变量进行编码(如独热编码 OHE 和有序编码 OE),并使用 z-score 标准化对所有特征进行缩放。对于缺失数据(小于总数据的 1%),采用链式随机森林通过 missForest 函数进行插补。
特征选择:运用单变量逻辑回归、Spearman 相关系数、分层聚类算法、排列重要性评估、Boruta 包特征选择、递归特征消除(RFE)算法和 LASSO 回归等多种方法,从训练集中选择与 pCR 相关的重要特征,并通过方差膨胀因子(VIF)检查多重共线性。
模型开发:首先使用 H2O 包中的 AutoML 框架训练模型,该框架包含 XGBoost、广义线性模型(GLMs)、随机森林(RF)等多种算法。在确定 GLMs 为最佳模型家族后,进一步使用 optuna 包对其进行超参数优化,并使用随机梯度下降(SGD)求解器训练 GLMs,同时进行 sigmoid 校准。此外,还训练了 TabPFN 模型。
模型评估与特征重要性分析:在训练集上使用 5 折交叉验证进行超参数调整,在内部验证集上评估模型性能,指标包括受试者工作特征曲线下面积(AUROC)、精确率 - 召回率曲线下面积(AUC - PR)、F1 值、准确率、精确率和召回率等。通过校准曲线检查模型校准情况,使用决策曲线分析评估模型在临床决策中的净效益。通过计算特征系数、排列重要性、SHAP 值和部分依赖图(PDP)等方法,评估模型中各特征的重要性。
生存分析:无病生存期(DFS)定义为从手术到局部和 / 或远处复发或任何原因死亡的时间,总生存期(OS)定义为从手术到任何原因死亡的时间。使用 Kaplan - Meier 方法评估生存估计,通过对数秩检验评估组间差异,使用 Cox 比例风险回归模型估计风险比(HR)。
在内部数据集中,87 名患者(15.2%)达到 pCR,其中训练数据集中有 72 名(15.6%)。内部队列的训练集和内部验证集患者特征平衡良好。外部验证队列与内部队列存在差异,外部队列中绝经前患者更多,肿瘤侵袭性较弱,淋巴结受累较少,小叶组织学患病率较高,ER 和 PR 表达较高,Ki67 水平较低,pCR 率仅为 8.6%(13 例)。
通过 RadViz 分析、平行坐标图、UMAP 分析和热图对内部数据集进行分析,结果表明,虽然在某些患者群体中可以排除 pCR 的可能性,但具有相似特征的患者可能会有不同的治疗结果,这表明可能存在未知因素影响治疗反应。在外部验证数据集中也观察到了类似的趋势。
经多种特征选择技术分析,cT、cN、G、ER、PR 和 Ki67 等临床病理特征与 pCR 显著相关。其中,Ki67、cT 和 PR 与 pCR 的相关性最强。最终,cN、cT、Ki67、PR、ER、年龄和 G 被纳入最终模型,且去除部分特征后多重共线性降低。这表明单因素与 pCR 的相关性不强,需要多变量模型来有效预测 pCR。
多种机器学习框架经交叉验证训练和评估,结果显示 GLMs 表现最佳。进一步优化后,使用 SGD 求解器和 sigmoid 校准的弹性网络模型在训练集中的交叉验证 AUROC 为 0.81,在内部验证集中的 AUROC 为 0.86,AUC - PR 为 0.55。在外部验证集中,该模型的 AUROC 为 0.81,AUC - PR 为 0.29。以 0.1925 为截断值,预测 pCR 阳性患者的 pCR 率为 23%,几乎是基线 pCR 率的三倍;预测 pCR 阴性患者的 pCR 率为 4%。这表明该模型能够利用可获取的基线特征较好地预测 NACT 反应。
在弹性网络模型中,Ki67 和 cT 的系数最大,且除 Ki67 和 G 外,其他特征系数均为负。排列重要性分析和 SHAP 值分析表明,cT 和 Ki67 是对模型预测影响最大的两个特征。这意味着在 HR+/HER2 - 乳腺癌中,临床肿瘤大小和 Ki67 是预测治疗反应的关键因素。
在内部队列中,达到 pCR 的患者 DFS 和 OS 均显著长于未达到 pCR 的患者。在内部验证集中也得到了一致的结果,这证实了 pCR 是生存的预后因素。
在内部验证集中,使用最大选择秩统计量(MSRS)确定 0.1366 为最佳截断值,基于此截断值的模型预测与 DFS 和 OS 的改善相关。将患者根据 MSRS 模型预测分为 pCR、未达到 pCR 但预测为 pCR、未达到 pCR 且预测为非 pCR 三组,DFS 存在显著生存趋势,OS 虽趋势不显著,但在 96 个月时不同组的生存概率有差异。这表明模型预测对患者生存具有预后影响,尤其对大多数未达到 pCR 的患者有分层作用。
本研究成功开发并外部验证了一种 ML 模型,可用于预测 HR+/HER2 - 乳腺癌患者 NACT 后的 pCR 概率。该模型基于易于获取的临床病理特征,具有较高的可重复性,相关方法适用于多种癌症类型,具有良好的临床应用前景。研究发现 Ki67 和 cT 是预测 HR+/HER2 - 乳腺癌 pCR 的最重要因素,年龄在预测病理反应中起重要作用,而绝经状态影响较小。通过模型预测,能够识别出不太可能对 NACT 产生反应的患者,这部分患者可能从风险适应性治疗策略中获益更多。同时,模型预测对患者生存具有潜在的预后影响,可对未达到 pCR 的患者进行分层。
在特征选择方面,本研究综合考虑文献数据、特征选择算法结果和领域知识,采用混合方法选择变量,确保模型的准确性和可推广性。研究中弹性网络模型在外部验证集中的 AUROC 为 0.81,表明模型具有较好的判别能力,但 AUC - PR 的下降也显示出仅基于临床病理特征预测 pCR 的挑战性。识别不太可能对 NACT 产生反应的患者具有重要临床意义,模型可纳入辅助或新辅助治疗决策框架,为不同患者制定个性化治疗方案提供参考。为便于临床应用,研究团队开发了开源交互式网络应用程序,以 20% 为截断值可将患者分为高、低 pCR 可能性两组,指导临床治疗决策。与其他预测 HR+/HER2 - 乳腺癌 NACT 病理反应的模型相比,本模型专门针对该亚型患者训练,性能更优。尽管如此,本研究仍存在局限性,如研究的回顾性导致部分数据收集不完整,缺乏肿瘤浸润淋巴细胞和 BRCA 突变状态等信息,样本量较小且随访时间较短等。未来需要更大样本量和更长随访时间的研究来进一步验证模型预测对生存结局的预后作用,并探索纳入更多特征以提高模型的判别能力。总体而言,本研究成果为 HR+/HER2 - 乳腺癌的临床治疗决策提供了有价值的参考,有望推动乳腺癌精准治疗的发展,改善患者的治疗效果和生存质量。
生物通微信公众号
知名企业招聘