基于CLIP(Contrastive Language-Image Pre-training)结合提示工程(Prompt Engineering)与类别不平衡感知Focal优化的肺癌组织病理学多分类框架

《Scientific Reports》：A CLIP-based framework for multiclass lung histopathology classification with prompt engineering and class-imbalance-aware focal optimization

【字体：大中小】 时间：2026年06月12日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要：肺癌仍是全球癌症相关死亡的首要原因之一，准确的组织病理学分类对及时诊断和治疗方案制定至关重要。研究人员提出了一种基于对比语言-图像预训练(CLIP, Contrastive Language-Image Pre-training)的框架用于肺癌组织病理学

摘要：肺癌仍是全球癌症相关死亡的首要原因之一，准确的组织病理学分类对及时诊断和治疗方案制定至关重要。研究人员提出了一种基于对比语言-图像预训练(CLIP, Contrastive Language-Image Pre-training)的框架用于肺癌组织病理学多分类，旨在区分良性肺组织、肺腺癌(Lung Adenocarcinoma)与肺鳞状细胞癌(Lung Squamous Cell Carcinoma)。所提方法采用预训练CLIP ViT-B/32骨干网络、领域特异性提示工程(Prompt Engineering)、多模态图像-文本配对及共享嵌入空间内的基于相似度的分类。为增强微调过程中的收敛性与鲁棒性，训练流程集成了数据增强、Focal Loss、AdamW优化器、OneCycle学习率调度、混合精度训练、梯度裁剪及早停(Early Stopping)。数据集划分为独立的训练集、验证集与测试集，文中报告训练集与验证集每类分别含3,500与500张图像。在Tesla T4 GPU上的实验训练显示性能随轮次稳定提升，最佳验证准确率达95.20%，宏平均AUC(Macro AUC)为0.9870，微平均AUC(Micro AUC)为0.9877，随后触发早停(第23轮)。研究结果表明，将CLIP与病理特异性文本提示相结合，为自动化肺癌组织病理学分类提供了强鲁棒性的可靠框架，在未来智能数字病理系统中具良好应用潜力。

论文解读：基于CLIP结合提示工程及类别不平衡感知Focal优化的肺癌组织病理学多分类研究

研究背景与意义

肺癌是全球癌症死亡率最高的恶性肿瘤之一，非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)中肺腺癌(Lung Adenocarcinoma)与肺鳞状细胞癌(Lung Squamous Cell Carcinoma)的治疗路径及靶向适应证截然不同，因此准确的组织病理学分类对临床决策至关重要。传统H&E染色切片镜检是诊断金标准，但存在主观性强、耗时及难以区分形态学重叠的恶性亚型等问题。现有深度学习方案多依赖纯视觉特征(CNN或Vision Transformer)，未引入临床语义信息，且在细粒度病理分类中泛化受限。对比语言-图像预训练(CLIP, Contrastive Language-Image Pre-training)可通过视觉-语言对齐引入语义先验，但目前在肺组织病理学三分类(良性肺组织、腺癌、鳞癌)中的应用尚少见。为此，研究人员开展了基于CLIP的多模态肺组织病理分类研究，探讨病理感知提示工程(Prompt Engineering)与类别不平衡优化策略对细粒度病理分类的增益，论文发表于《Scientific Reports》。

主要关键技术方法

研究人员采用公开肺组织病理H&E图像数据集，分为三类——良性肺组织(Benign Lung Tissue)、肺腺癌(Lung Adenocarcinoma)、肺鳞状细胞癌(Lung Squamous Cell Carcinoma)，每类训练集3,500张、验证集500张、测试集500张。使用OpenAI预训练CLIP ViT-B/32(openai/clip-vit-base-patch32)作为骨干，图像编码器与文本编码器分别提取特征并L₂归一化至共享嵌入空间。每类设计多个领域特异性病理文本提示池(每类M_k=4个模板，描述对应组织形态学如腺管形成、角化等)，训练时随机采样提示构建图像-文本对，引入加权随机采样(Weighted Random Sampling)缓解难易样本不平衡，采用Focal Loss(α=1.0, γ=2.0)替代普通交叉熵，优化器为AdamW(初始lr=2×10^-6，weight decay=0.01)配合OneCycleLR(max lr=1×10^-5)，批次大小32，启用混合精度与梯度裁剪(norm≤1.0)，早停耐心值8轮。推理阶段使用多模板提示集成——3种通用模板填入类名生成文本嵌入，取图像与各模板下类别相似度均值作最终预测，经Softmax得类别概率。评估指标含准确率、精确率(Precision)、召回率(Recall)、F1值、混淆矩阵及多类ROC曲线(宏/微平均AUC)。

研究结果

Training progression across epochs（逐轮训练进程）

研究人员监控各轮训练与验证准确率及AUC。模型首轮验证准确率52.67%(Macro AUC 0.7489)，第15轮达峰值——验证准确率95.20%，Macro AUC 0.9870，Micro AUC 0.9877；早停于第23轮(连续8轮无改善)。表明CLIP微调在病理提示辅助下可稳定收敛并取得高性能。

Best validation performance（最佳验证性能）

第15轮最佳检查点验证准确率95.20%，Macro AUC 0.9870，Micro AUC 0.9877，二者接近说明三类别判别均衡，无明显偏向，证实多模态对比学习能有效编码良/恶性及两恶性亚型间差异。

Class wise validation performance（类别水平验证性能）

良性肺组织Precision、Recall、F1值最高；肺腺癌与肺鳞癌因形态部分重叠略低但均保持高水平(F1>0.93)，说明模型对难分恶性亚型仍具良好鉴别力，且符合病理诊断本身难度分布。

ROC curve analysis（ROC曲线分析）

三类别一对一其余(One-vs-Rest) ROC曲线贴近左上角，Macro与Micro AUC均近0.99，证明模型在任意阈值下均有优良排序与判别能力，良/恶性及亚型间可分性高。

Confusion matrix analysis（混淆矩阵分析）

混淆矩阵呈强对角占优，良/恶性误判极少；少量误判集中于腺癌?鳞癌互错，与临床实际形态重叠相符，无系统性偏倚。

Test set performance（测试集性能）

独立测试集准确率与最佳验证集基本一致(文中数值与验证集高度吻合)，各类Precision、Recall、F1保持高位，混淆矩阵与ROC同验证集趋势，证实模型泛化能力良好，未见明显过拟合。

Ablation study（消融实验）

基线CLIP+交叉熵+单模板推理得验证准确率91.40%；单独加Focal Loss升至92.93%；单独加加权采样升至92.33%；二者联合达94.13%；全配置(再加多模板推理)达95.20%。逐组件贡献为正且互补，Focal Loss与加权采样对难样本与均衡训练贡献最大，多模板推理进一步提升推理稳定性。

External validation and generalization analysis（外部验证与泛化分析）

在未参与训练调参的外部来源子集(含染色/扫描差异)上直接测试，准确率93.17%、Macro-F1 93.24%、Macro AUC 97.63%，较内部验证降约2%，各类F1>0.90，在模拟域偏移条件下仍保持强判别力，说明CLIP语义对齐与多模板推理有助于抵抗染色及设备差异。

讨论与结论翻译

本研究针对自动化三分类肺组织病理学分类(良性肺组织、肺腺癌、肺鳞癌)这一临床重要问题开展研究。与仅依赖像素级特征的常规纯卷积神经网络(CNN)流程不同，所提方法基于CLIP架构引入描述各诊断类别形态学特征的领域特异性提示工程(Prompt Engineering)，在训练与推理阶段融入语义病理描述使模型学习临床相关的跨模态关联；采用Focal Loss增强训练稳定性并缓解潜在难易样本不平衡影响，强化恶性亚型间决策边界。大量实验表明模型逐轮稳定学习，峰值验证准确率95.20%，宏/微AUC近0.99；类别水平分析证实三类别Precision、Recall、F1均衡；混淆矩阵显示良/恶性重叠极少且腺癌与鳞癌互错有限且符合临床病理特点；独立测试验证框架鲁棒性与泛化能力。综上，结合多模态对比学习与病理感知提示工程的CLIP框架为肺癌组织病理学分类提供了具前景的方向，通过在统一架构内桥接视觉形态学与语义医学知识，所提方法可为未来支持真实临床环境诊断决策的新一代数字病理系统奠定坚实基础。

热点排行