嵌入驱动双分支框架:实现乳腺癌肿瘤细胞密度精准分类的新突破
《Scientific Reports》:Embedding-driven dual-branch approach for accurate breast tumor cellularity classification
【字体:
大
中
小
】
时间:2025年11月21日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对乳腺癌组织病理图像分析中存在的全局上下文缺失和形态异质性等挑战,提出了一种融合嵌入提取和视觉分类的双分支深度学习框架。通过Virchow2 Transformer生成结构化嵌入,结合Nomic AI Embedded Vision v1.5的视觉特征,并创新性引入知识块(Knowledge Block)进行特征融合,最终在Post-NAT-BRCA数据集上达到97.86%的准确率,显著提升了肿瘤细胞密度分类的精确度和鲁棒性。
在全球女性癌症发病率中,乳腺癌(BC)长期占据重要地位。传统的诊断方式如乳腺X线摄影、超声和磁共振成像虽广泛应用于早期筛查,但存在假阳性或假阴性的风险,往往需要进一步通过活检和组织病理学检查进行确诊。作为乳腺癌诊断的"金标准",组织病理学图像分析(HIA)通过对苏木精-伊红(H&E)染色和免疫组织化学技术处理的组织样本进行分析,能够提供详细的肿瘤特征信息。然而,全幻灯片图像(WSI)的人工解读面临巨大挑战——组织变异和观察者差异导致诊断结果的不一致性,而整张WSI可能达到十亿像素级别,直接处理这样的高分辨率图像在计算上是不可行的。
目前,基于人工智能(AI)的方法正在改变这一局面。深度学习(DL)技术,特别是卷积神经网络(CNNs)和视觉Transformer(ViTs),在医学图像分类任务中表现出色。ViTs因其能够捕捉长距离依赖和全局上下文信息,特别适合处理复杂的组织病理学图像。然而,现有方法大多依赖于从原始图像块进行直接分类或特征提取后处理,这些方法存在空间信息丢失或对细微模式敏感性不足的固有缺陷。此外,形态学异质性和染色伪影也阻碍了模型在不同数据集间的泛化能力。
为了应对这些挑战,一项发表在《Scientific Reports》上的研究提出了一种创新的双分支架构,将嵌入驱动和视觉驱动的分析方法有机结合。该研究团队开发了一个包含嵌入提取分支(Embedding Extraction Branch)和视觉分类分支(Vision Classification Branch)的框架,通过一种称为"知识块"(Knowledge Block)的新型组件进行特征融合,显著提升了乳腺癌肿瘤细胞密度分类的准确性。
研究人员主要采用了几个关键技术方法:使用公开的Post-NAT-BRCA数据集(包含54名接受新辅助治疗患者的96个WSI);嵌入提取分支采用Virchow2 Transformer生成2560维度的密集嵌入;视觉分类分支使用Nomic AI的Embedded Vision v1.5模型处理图像块;设计知识块(包含全连接层、批归一化、LeakyReLU激活和Dropout正则化)进行特征精炼;通过元素求和方式融合两个分支的输出logits;采用十次重复实验和统计验证确保结果可靠性。
研究提出的双分支框架通过并行处理路径整合了两种信息流。嵌入提取分支利用预训练的Virchow2模型生成高维密集嵌入,保留组织块的语义细节;视觉分类分支则通过基于Transformer的架构直接处理图像块。知识块作为核心创新组件,通过多层前馈网络(包括全连接层、批归一化、LeakyReLU激活和Dropout)对嵌入特征进行非线性变换,生成增强的分类logits。最终通过元素级求和结合两个分支的输出,形成综合诊断决策。
为评估四个类别间嵌入特征的可分离性,研究应用了t-SNE、UMAP和PCA三种降维技术。可视化结果显示,虽然存在一定的聚类趋势,但相邻类别(如低级别与中级别)之间存在显著重叠,这凸显了需要辅助视觉引导路径来区分这些边界案例的必要性。
完整的双分支框架在乳腺癌分类任务中表现出卓越性能,准确率达到97.86%,特异性为99.29%,敏感性、精确度和F1分数均为97.86%。消融研究揭示了各组件的重要性:移除嵌入分支导致准确率急剧下降至25%,表明该分支对捕获判别性特征至关重要;移除视觉分支造成较小性能下降(准确率95.75%);而去除数据增强则使准确率降至89.37%,证实了数据增强对模型泛化能力的关键作用。
通过箱形图和雷达图对性能指标分布的可视化分析表明,完整模型在所有指标上都表现出紧密的四分位距和高 median 值,强调了其鲁棒性和一致性。相比之下,消融变体显示出更大的可变性和更低的稳定性,进一步证实了融合视觉和嵌入分支对达到最佳诊断性能的重要性。
研究团队对知识块的关键超参数进行了系统评估。结果表明,2560维的完整嵌入维度能最佳保留组织病理学语义信息,降至256维会导致性能显著下降。三层的全连接网络结构在表征能力和过拟合间达到最优平衡,LeakyReLU激活函数比传统ReLU表现更佳,50%的Dropout率最能优化泛化能力,批归一化则有效提升了训练稳定性和收敛速度。
与ResNet50、EfficientNet-B4、Swin-Tiny、ViT-Base/16等先进方法相比,提出的双分支框架在准确率上领先最强的基线(ConvNeXt-Base)1.43个百分点。统计显著性检验(p < 0.001)证实了知识驱动融合策略相对于单路径和传统融合模型的实质优势。这种性能提升源于领域特定语义知识(通过Virchow2)和高分辨率视觉推理(通过Nomic AI)的融合,尤其在区分中等级别和高级别细胞密度等模糊案例时表现突出。
在标准化硬件平台上的评估显示,该框架平均每块推断时间为18.7毫秒,吞吐量约为53.5帧/秒。处理整张WSI(约1200个图像块)的总推断时间平均为36.2秒,符合临床实时决策支持的工作流程需求。知识块仅引入280万参数,远低于端到端配置的参数量,峰值GPU内存使用量为11.4GB,在现代临床工作站能力范围内。
研究结论表明,这种嵌入驱动的双分支框架通过整合两种互补的信息路径,显著提升了乳腺癌肿瘤细胞密度诊断的准确性和鲁棒性。创新性的知识块设计实现了语义知识的精炼与融合,有效解决了组织病理学图像分析中的关键挑战。该研究不仅超越了传统方法和现有先进技术,更重要的是为减少诊断中的观察者差异和提高诊断一致性提供了可靠解决方案,为人工智能在数字病理中的实际临床应用奠定了坚实基础。
未来研究方向包括扩展数据集的 demographic 和地理多样性以增强泛化能力,整合基因组学、放射学等多模态数据提升诊断能力,开发实时临床应用系统,以及增强模型的可解释性以满足临床可信度要求。通过与执业病理学家的紧密合作和关注数据隐私、偏见减少等伦理考量,这一框架有望最终转化为临床实践,改善乳腺癌患者的诊疗结果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号