标签高效计算方法在乳腺癌中评估肿瘤浸润淋巴细胞(ECTIL):在2340名乳腺癌患者中的多中心验证
【字体:
大
中
小
】
时间:2025年12月12日
来源:The Lancet Digital Health 24.1
编辑推荐:
高效数据集的深度学习模型在乳腺癌预后评估中的应用
### 研究背景与意义
三阴性乳腺癌(TNBC)是一种侵袭性强且预后较差的乳腺癌亚型。研究表明,肿瘤浸润淋巴细胞(TILs)的数量与患者的生存率密切相关,高TILs水平可能预示着更好的预后。然而,TILs的评估高度依赖病理学家的经验,存在主观性强、耗时长、效率低等问题。近年来,随着深度学习技术的发展,基于数字病理学(WSI)的自动TIL评分模型逐渐成为研究热点。然而,现有模型普遍面临两大挑战:一是需要大量高精度标注数据(如细胞级或像素级的标注),二是依赖复杂的分段和检测流程,增加了临床应用的难度。
荷兰阿姆斯特丹大学医学中心的Yoni Schirris团队提出了一种名为“ECTIL”(Efficient and蔡氏标签高效的TIL评估模型)的创新方法。该模型通过简化流程和减少标注需求,实现了与病理学家评分高度一致的TIL预测能力。这一突破为临床提供了更高效、可重复的TIL评估工具,同时为AI在病理学中的应用开辟了新路径。
### 研究方法与创新点
#### 数据来源与预处理
研究团队整合了来自美国、英国、荷兰的6个临床队列和3项随机对照试验的数据,涵盖2340名患者的2354份WSI样本。数据预处理包括去除非组织区域(使用FESI算法)、统一扫描参数标准化,以及排除低质量或非肿瘤性样本。关键创新在于仅需“WSI级”的TIL评分标注(如每张切片的整体TIL百分比),而非传统方法所需的细胞级或像素级标注,这大幅降低了数据获取成本。
#### 模型架构与训练
ECTIL基于预训练的病理学基础模型RetCCL,提取WSI的2048维特征向量。通过引入“门控注意力机制”,模型能够动态加权不同区域(如肿瘤基质、边缘淋巴细胞)的贡献,最终直接回归出TIL评分。训练仅需10分钟,使用少量标注数据(100-400份),显著优于传统方法(需数千份细胞级标注)。例如,ECTIL-TNBC模型仅需400份三阴性乳腺癌样本的TIL评分即可完成训练,而现有模型如EasTIL需依赖复杂的多阶段流程和大量标注。
#### 验证策略
研究采用三重验证策略:
1. **内部验证**:以TCGA数据集为例,通过五折交叉验证评估模型性能,r值达0.61,AUROC为0.84。
2. **外部泛化测试**:在BASIS、N4+、MATADOR、TRAIN II和PARADIGM等独立队列中验证,r值范围0.54-0.74,AUROC达0.80-0.94。
3. **临床预后分析**:在PARADIGM队列(390名年轻、未接受化疗的TNBC患者)中,ECTIL的HR(风险比)为0.86,与病理学家评分独立且显著预测生存率(p<0.0001)。
#### 核心优势
1. **数据高效性**:仅需数百份WSI级标注即可训练,标注成本降低两个数量级。
2. **流程简化**:无需像素级分割或细胞检测,单阶段模型完成预测,计算效率提升100倍以上。
3. **泛化能力强**:在跨机构、跨扫描设备(如Aperio、3DHistech)和跨分子亚型(ER+/HER2-、三阴性等)数据集上均表现优异。
### 关键研究结果
#### 与病理学家评分的对比
在PARADIGM队列中,ECTIL-combined与病理学家评分的Spearman相关系数为0.69,AUROC为0.85,显著优于仅使用单一机构数据的模型(如ECTIL-TCGA的r=0.58)。在MATADOR队列中,ECTIL的r值甚至达到0.74,接近病理学家间的共识水平(0.8)。尽管绝对评分存在偏差(如最大预测值仅70%),但通过中位数截断(≥27% vs <27%)仍能显著分层患者生存率(3年生存率差达7%)。
#### 预后价值验证
多因素Cox回归分析显示,ECTIL-TIL每增加10%,患者死亡风险降低14%-17%(95% CI 0.77-0.93),与病理学家评分的HR(0.86)高度一致。值得注意的是,ECTIL在低级别浸润性乳腺癌(ILC)中的表现较弱(r=0.36),但通过限制训练数据子集(仅三阴性患者)仍能保持临床实用性。
#### 对比现有方法
1. **EasTIL**:依赖多阶段流程(U-Net分割+边界检测),需细胞级标注(558,225个细胞),模型复杂度高且训练成本巨大。在PARADIGM队列中,EasTIL的r值仅为0.53,且HR未达统计学显著水平(p=0.14)。
2. **Choi模型**:通过大规模细胞标注(2334mm2)达到r=0.71,但其依赖的标注量难以在临床推广。
3. **Thagaard模型**:r值达0.79,但训练数据局限于单一机构,泛化能力存疑。
### 局限性与改进方向
1. **样本偏差风险**:纳入数据中女性占比超99%,未标注的种族数据缺失,可能影响模型对少数群体的普适性。
2. **特殊病理类型的敏感性不足**:在ILC中,模型易将肿瘤细胞误判为TIL(r=0.36),需结合形态学特征(如核分裂象)进行修正。
3. **上下文感知不足**:当前模型基于局部 patches 特征,对肿瘤异质性(如边缘区域与中心区域的淋巴细胞分布差异)捕捉有限。未来可引入图神经网络(GNN)或Transformer架构,增强空间上下文建模能力。
4. **标注规范差异**:不同研究对“肿瘤基质”的界定存在分歧,需统一标注标准以提升模型鲁棒性。
### 临床转化潜力
研究团队已启动一项III期临床验证(NCT06476119),计划在低分期三阴性乳腺癌患者中,通过ECTIL预筛选适合“去阶梯化治疗”(de-escalation)的亚群。例如,在PARADIGM队列中,TIL评分≥75%的患者3年生存率达100%,而<30%的患者生存率仅为81%。ECTIL有望将这一分层标准标准化,减少对专家经验的依赖。
### 方法学贡献
1. **标签高效性**:通过仅使用WSI级标注,模型训练成本降低至传统方法的1/100。
2. **计算效率优化**:训练时间压缩至10分钟内(单卡RTX 2080 Ti),推理速度达0.5秒/WSI。
3. **开源生态构建**:模型权重、训练代码及WSI预处理工具包已开放获取,推动社区二次开发。
### 结论与展望
ECTIL模型证明,通过简化架构和优化训练策略,AI能够以低成本、高效率实现与病理学家相当的TIL评分。其核心价值在于解决了现有模型在数据效率和临床实用性之间的矛盾。未来研究可聚焦于:
- 开发多任务联合模型,同时预测TILs和免疫微环境特征(如PD-L1表达)。
- 构建动态标注系统,利用AI辅助病理学家更高效地完成WSI级标注。
- 探索跨癌种应用,如胃癌、肺癌中TILs的预后价值预测。
该研究为AI辅助诊断提供了重要参考,其开源生态有望加速技术落地。例如,德国慕尼黑大学已基于ECTIL框架开发了自动化的TIL评分工作流,在2024年 ASCO 年会上展示了其与病理学家评分的r=0.68(P<0.001)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号