
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双阶段视觉Transformer的NSCLC H&E切片中ROS1/ALK融合基因预测模型研究
【字体: 大 中 小 】 时间:2025年08月01日 来源:npj Precision Oncology 8
编辑推荐:
本研究针对非小细胞肺癌(NSCLC)中罕见但临床关键的ROS1/ALK基因融合检测难题,开发了基于33,014例患者H&E切片的双阶段视觉Transformer模型。通过先训练复合生物标志物(RAN)再微调的策略,模型在独立验证集中分别达到0.85(ROS1)和0.84(ALK)的ROC AUC,为临床提供了一种可扩展、低成本的新型预筛查工具。
肺癌作为全球癌症相关死亡的首要原因,其中非小细胞肺癌(NSCLC)占比高达85%。尽管靶向治疗显著改善了ALK/ROS1融合阳性患者的预后,但这类融合事件在NSCLC中发生率极低(ROS1 1-2%,ALK <5%),传统检测方法如荧光原位杂交(FISH)和免疫组化(IHC)存在成本高、耗时长、组织消耗大等局限。如何从常规H&E染色切片中挖掘分子特征,成为数字病理领域的重要挑战。
Caris Life Sciences的研究团队在《npj Precision Oncology》发表了一项突破性研究,通过对33,014例NSCLC患者(含306例ROS1和697例ALK融合阳性)的全切片图像分析,建立了基于双阶段视觉Transformer的预测框架。研究创新性地采用MoCo-v3自监督特征提取和复合标签迁移学习策略,首次实现了从常规病理切片中高精度预测罕见基因融合事件,为临床决策提供了新型人工智能辅助工具。
关键技术方法包括:1) 使用Leica和Philips扫描仪获取33,014例FFPE样本的H&E全切片图像;2) 基于MoCo-v3的自监督特征提取生成384维特征向量;3) 采用RAN(ROS1/ALK/NTRK)复合标签预训练后靶向微调的两阶段策略;4) 五折交叉验证评估框架。
比较直接与两阶段训练策略
通过对比直接训练与RAN预训练后微调的策略,发现两阶段方法显著提升ROS1预测性能(ROC AUC 0.86 vs 0.83),而ALK因阳性样本较多改善幅度较小(0.86 vs 0.85)。这验证了迁移学习在罕见生物标志物预测中的价值。
ROS1融合模型性能
模型在测试集达到0.85的ROC AUC,但精确召回曲线受类别不平衡影响(PR AUC 0.1)。通过调整损失函数正样本权重(5-30倍),可灵活平衡阳性符合率(PPA)与阴性符合率(NPA),最高可使PPA提升至0.79。
标本类型分层分析
切除标本在敏感性指标上普遍优于活检标本,如ROS1预测中切除组的PPA(0.58)显著高于活检组(0.45),提示组织量对模型性能的影响。
ALK融合模型性能
类似架构下ALK模型取得0.85 ROC AUC和0.20 PR AUC,PPA达0.57。值得注意的是,仅需10倍正样本权重即可使ALK的PPA接近1,显著优于ROS1所需的30倍权重,反映样本量对模型优化的关键作用。
模型可解释性
该研究通过三大创新点推进了数字病理领域:首先,建立目前最大规模的NSCLC融合基因影像组学数据集;其次,开发的双阶段训练策略有效缓解了罕见生物标志物的样本瓶颈;最后,模型展示的0.85 ROC AUC证明H&E切片蕴含足以预测分子特征的形态学信息。尽管存在未外部验证、未考虑新辅助治疗影响等局限,但这项研究为实现"形态学-分子特征"跨模态关联提供了概念验证,未来可通过整合更高分辨率特征提取器(如PathCLIP、UNI)进一步提升性能。临床转化方面,该模型可作为经济高效的预筛查工具,优化FISH/NGS检测资源配置,加速精准医疗实施进程。
生物通微信公众号
知名企业招聘