基于两阶段多示例学习的全切片图像分析技术实现肺腺癌九种基因突变的高精度预测

【字体: 时间:2025年06月03日 来源:Diagnostic Pathology 2.4

编辑推荐:

  针对传统基因检测方法成本高、耗时长的问题,中国医学科学院团队通过自监督模型DINO与两阶段多示例网络GAMIL,利用2219例肺腺癌全切片图像(WSIs)预测EGFR/KRAS/ALK等9种基因突变状态。模型AUC达0.825-0.987,显著优于病理学家(EGFR预测AUC 0.810 vs 0.508),为分子检测效率提升和个体化治疗提供新路径。

  

肺腺癌作为非小细胞肺癌(NSCLC)的主要亚型,其治疗高度依赖EGFR、ALK等驱动基因的精准检测。然而传统免疫组化(IHC)和二代测序(NGS)面临周期长(≥1周)、成本高的瓶颈,尤其对穿刺活检等微量样本患者极不友好。更棘手的是,尽管既往研究提示EGFR突变可能与鳞屑样生长模式相关,KRAS突变与实体型相关,但形态学-分子关联的规律仍存在争议,病理学家肉眼判读的准确率仅接近随机猜测(AUC 0.508)。

中国医学科学院中日友好医院团队在《Diagnostic Pathology》发表的研究,开创性地构建了基于全切片图像(WSIs)的基因突变预测系统。研究者收集了1999例患者的2221张肺腺癌H&E染色切片,涵盖手术(1756例)和活检(465例)样本,通过ResNet定位肿瘤区域后,采用自监督模型DINO提取特征,最终通过两阶段门控注意力多示例学习网络(GAMIL)预测9种基因(EGFR/KRAS/ALK/HER2/ROS1/RET/BRAF/PIK3CA/NRAS)突变状态。关键技术包括:1)基于中国患者队列(CJFH)构建内部数据集;2)采用弱监督策略仅需slide-level标签;3)外部验证使用中国医学科学院肿瘤医院(CAMS)256例和TCGA数据库541例数据。

【ResNet-based tumor region recognition】
肿瘤区域识别模型在测试集达到AUC 0.995,热图显示能准确区分腺癌亚型区域,如鳞屑样(lepidic)和实体型(solid)结构。

【Prediction of mutations in 9 genes】
GAMIL在slide-level预测表现突出:ALK突变AUC最高(0.987),EGFR达0.825,KRAS为0.911。患者level分析保持稳定(ALK AUC 0.987),3折交叉验证方差<0.07证实模型鲁棒性。

【Comparison of different models】
相比CLAM(AUC 0.679)和Inception v3(0.665),GAMIL性能显著提升。外部验证中,CAMS数据集ALK预测AUC 0.843,但TCGA数据因样本质量差异仅0.508-0.716。

【Analysis of histomorphological characteristics】
注意力热图揭示基因特异性形态特征:EGFR高权重区域多对应鳞屑样结构(图5a),KRAS突变关联黏液腺癌区域(图5b),ALK阳性区域可见实体型伴黏液细胞(图5c)。

【Comparison between pathologists and GAMIL】
6位病理学家(含高级职称2人)对100例测试集EGFR预测的平均AUC仅0.508,而GAMIL达0.810(图6b)。访谈发现医生难以建立稳定形态学判读标准。

该研究首次证实两阶段多示例学习策略在基因突变预测中的优越性,其临床价值体现在三方面:1)对活检等微量样本患者,可避免因组织不足导致的检测失败;2)将分子检测周期从数天缩短至数小时;3)注意力热图为形态-分子关联研究提供可视化工具。局限性在于双突变病例和突变位点细分的研究尚未开展。未来可探索该技术指导ALK抑制剂(如克唑替尼)等靶向治疗的即时决策潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号