组织病理学感知的DINO模型:基于注意力机制的表征增强方法在结直肠癌诊断中的应用

《Scientific Reports》:A histopathology aware DINO model with attention based representation enhancement

【字体: 时间:2025年12月23日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对结直肠癌组织病理学图像分析中存在的诊断变异性和关键形态学特征提取不足的问题,开发了HistoDARE模型。该模型在DINOv2 ViT-L/14架构中引入三级注意力模块(空间注意力+通道注意力+残差优化),在NCT-CRC-HE-100K数据集上实现了98.03%的准确率,显著提升了正常组织(NORM)和基质组织(STR)等临床关键类别的识别精度,为数字病理诊断提供了更可靠的工具。

  
在当今全球癌症负担日益加重的背景下,结直肠癌(Colorectal Cancer, CRC)已成为发病率排名第三的恶性肿瘤,约占所有癌症病例的10%。2020年全球数据显示,结直肠癌的新发病例占所有癌症的10%,死亡率高达9.4%。尽管医学技术不断进步,但结直肠癌的诊断过程仍主要依赖病理医生的肉眼观察和主观判断,导致诊断结果存在较大变异性和延迟性。特别是在组织病理学图像分析领域,全切片图像(Whole Slide Images, WSI)的庞大规模(可达吉像素级别)和诊断关键区域的精确定位需求,使得传统人工分析方法难以满足临床实际需求。
数字病理学的快速发展为组织病理学图像分析带来了新的机遇,但也面临着诸多挑战。首先,不同病理医生之间的观察者间变异性(Inter-observer Variability)降低了诊断结果的可重复性和一致性。其次,全切片图像的巨大尺度使得人工分析变得不切实际,亟需开发自动化分析系统。此外,现有的深度学习模型在处理组织病理学图像时往往对所有图像块(Patch)赋予相同的重要性权重,忽略了那些尺寸微小但具有重要诊断价值的形态学特征。自监督学习(Self-Supervised Learning, SSL)和视觉Transformer(Vision Transformer, ViT)等新兴技术虽然在一定程度上缓解了对大规模标注数据的依赖,但仍缺乏能够自适应增强关键区域特征的机制,限制了其在临床环境中的可靠性和可解释性。
为了应对这些挑战,Merve Ozkan等人开展了一项创新性研究,开发了HistoDARE(Histopathology-Aware DINO with Attention-based Representation Enhancement)模型,该研究成果已发表于《Scientific Reports》期刊。研究人员通过在DINOv2 ViT-L/14骨干网络中集成一种新颖的三级注意力模块(AttentionWrapper),实现了对组织病理学图像中诊断关键区域的自适应增强,显著提升了模型的特征表示能力和分类性能。
在技术方法方面,研究团队主要采用了以下几种关键技术:首先,基于公开可用的NCT-CRC-HE-100K结直肠癌组织病理学图像数据集(包含100,000张H&E染色图像,分为9个组织类别);其次,利用DINOv2 ViT-L/14模型进行自监督特征提取,获取1024维的嵌入向量;第三,设计并实现了三级注意力模块(空间注意力、通道注意力和残差优化),通过空间重加权和通道级特征增强提升诊断关键区域的表征质量;最后,采用5折分层交叉验证和逻辑回归分类器进行性能评估,确保结果的可靠性和泛化能力。
模型架构设计
HistoDARE模型的整体架构基于DINOv2 ViT-L/14骨干网络,并集成了专门设计的AttentionWrapper模块。输入图像经过标准预处理(缩放至256×256像素,中心裁剪为224×224像素,ImageNet标准化)后,送入预训练的DINOv2网络提取中间层特征。研究人员通过get_intermediate_layers函数从第24个编码器块提取patch token(排除[CLS] token),获得丰富的语义表示。这些特征随后进入三级注意力模块进行精细化处理。
AttentionWrapper模块依次执行空间注意力、通道注意力和残差优化。空间注意力机制通过多层感知机(Multilayer Perceptron, MLP)结构计算每个图像块的重要性权重,使用GELU激活函数、层归一化(Layer Normalization)和Sigmoid函数生成0-1范围内的注意力分数,突出显示包含肿瘤边界或腺体纹理等诊断关键区域。通道注意力机制则通过全局平均池化(Global Average Pooling)获取通道级摘要,采用缩减比为16的两层MLP结构计算通道注意力权重,增强具有高语义密度的特征通道。
注意力可视化分析
为了验证模型的可解释性,研究人员将空间注意力权重投影回原始图像空间,生成注意力热图(Attention Heatmap)。这些热图清晰地显示,HistoDARE模型能够准确聚焦于具有诊断意义的区域,如上皮结构、基质组织和肿瘤区域,与病理医生的视觉评估高度一致。
性能评估结果
在NCT-CRC-HE-100K数据集上的实验结果表明,HistoDARE模型在5折分层交叉验证中取得了显著优于基线模型和其他先进方法的性能。平均准确率达到98.03%,精确度98.03%,召回率98.02%,F1分数98.02%,特异性99.95%。与基线DINOv2模型相比,HistoDARE在所有评估指标上均实现了稳定提升,特别是在正常组织(NORM)和基质组织(STR)等临床关键类别上表现突出。
类级别准确性分析显示,HistoDARE在ADI、DEB、LYM、MUC、MUS、NORM和STR等多个类别上均实现了一致性改进。其中,NORM类别的准确率从96.88%提升至97.11%,STR类别从95.04%提升至95.29%,这表明模型在易混淆类别的区分能力上有了实质性提升。
计算效率分析
在计算复杂度方面,HistoDARE保持了与基线DINOv2相当的计算效率。模型FLOPs(Floating Point Operations)从77.89 GMac略微增加至78.42 GMac,参数数量从304.37M增加至306.60M,特征提取时间从2080.08秒增加至2097.84秒。虽然GPU内存使用量有所增加,但仍处于现代病理学工作站可接受范围内,体现了模型在性能和效率之间的良好平衡。
维度缩减与聚类可视化
通过主成分分析(Principal Component Analysis, PCA)和t-SNE(t-Distributed Stochastic Neighbor Embedding)降维技术对学习到的特征表示进行可视化分析,结果显示HistoDARE产生的特征具有更紧密的类内聚类和更清晰的类间分离,特别是在NORM和STR等临床相似类别之间表现出更好的可区分性。
与先进方法对比
与EfficientNet-b0、ResNeXt-50-32x4d、RegNetY-3.2GF、ResNet-50等传统卷积神经网络模型相比,HistoDARE在各项指标上均表现出明显优势。与TransFuse、DS-TransUNet、EG-TransUNet等基于Transformer的先进方法相比,HistoDARE不仅性能更优,而且具有更高的计算效率和更好的可解释性。
研究结论表明,HistoDARE通过引入三级注意力机制,成功提升了组织病理学图像分析的准确性和可靠性。尽管性能提升在数值上看似微小,但统计分析显示在准确率(p=0.0482)、召回率(p=0.0470)和特异性(p<0.0001)等关键指标上均具有显著改善。特别是在特异性方面的显著提升,表明模型能够有效减少假阳性预测,这对于避免不必要的临床干预具有重要意义。
该研究的实际意义在于为数字病理诊断提供了一种更加可靠和可解释的自动化工具,有望减少病理医生的工作负担,提高诊断一致性。未来研究方向包括在多中心异构数据集上进行验证、将模型扩展至全切片图像分析流程,以及探索注意力剪枝(Attention Pruning)等模型优化技术,进一步提升模型的临床适用性和部署效率。
研究团队已将完整代码开源在GitHub仓库(https://github.com/MRV-1/HistoDARE),确保了研究的可重复性和透明度,为后续研究提供了坚实基础。这一工作不仅推动了组织病理学图像分析技术的发展,也为癌症精准诊断提供了新的技术路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号