通过空间条件化扩散实现多视角乳腺X光片的生成形态学对齐

《Engineering Applications of Artificial Intelligence》:Generative morphological alignment of multi-view mammograms via spatially-conditioned diffusion

【字体: 时间:2026年03月01日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  钼靶片多视角非刚性形变建模与生成:提出空间条件扩散模型Morph-Gen,融合源视图视觉特征、报告语义嵌入和动态预测形变场,实现CC-MLO视角形态对齐,提升下游诊断任务性能。

  
唐青峰|丁鹏程|张亮亮|戴国伟|马修·汉密尔顿|安慧
安徽省智能感知与计算重点实验室,安庆师范学院,安庆246133,中国

摘要

分析多视角乳腺X光片,特别是头尾(CC)和内外侧斜位(MLO)视图,由于采集过程中乳腺组织复杂的非刚性变形,这成为一个重大挑战。大多数计算方法忽略了这种空间对应关系,限制了它们学习形态感知表示的能力。为了解决这个问题,我们引入了Morph-Gen,这是一个新颖的生成框架,它通过空间条件化的扩散模型显式地对乳腺X光片视图之间的形态进行对齐。我们的方法学习根据给定的源视图及其相关的放射学报告合成目标视图。合成过程由三个条件精心指导:源视图中的视觉特征、从文本报告中提取的局部语义嵌入,以及动态预测的密集变形场。这种几何条件捕捉了非刚性空间变换,通过自监督目标优化的可变形几何网络来学习。这些多模态条件通过交叉注意力无缝注入扩散U-Net中,提供细粒度的指导。通过迫使模型理解和执行这种复杂的解剖变换,Morph-Gen学习了一个深度解耦的潜在空间,该空间捕捉了形态不变量和病理异常,为下游诊断任务提供了强大的基础。

引言

乳腺癌(BC)是全球女性中最常见的癌症,也是癌症相关死亡的第二大原因。尽管取得了显著进展,但乳腺癌死亡率的年下降速度已经放缓,从20世纪90年代的3%下降到21世纪的1%,并在2011年至2020年间保持这一水平(Wen等人,2024年)。通过筛查和诊断方法的进步,早期识别乳腺癌可以显著提高治疗成功的可能性、长期生存率和生活质量。可用于乳腺癌检测的诊断工具和方法种类繁多,为临床实践提供了越来越多的选择(Veeranjaneyulu等人,2025年)。放射学诊断利用X射线、超声波(US)、计算机断层扫描(CT)和磁共振成像(MRI)等成像模式,对于早期、无创的癌症检测至关重要(Darbandi等人,2024年;Dai等人,2025b年;G. Li等人,2025年;Zeeshan Aslam等人,2024年)。特别是全视野数字乳腺X光摄影(FFDM)或数字乳腺X光摄影(DM)的有效性得到了广泛认可,尤其是在涉及致密乳腺组织或乳腺X光片隐匿性病变的情况下(Dan等人,2024年)。这凸显了当前诊断技术改进的持续需求,特别是在图像解释的准确性和效率方面。
近年来,计算机辅助诊断(CAD)的范式已经从依赖手工特征描述符的系统转向探索能够自动进行判别特征学习的新深度学习架构(Park等人,2024年;Ramos-Soto等人,2025年;Zhang等人,2025年;Dai等人,2026a年)。初步证据表明,人工智能(AI)可以在包括放射学、眼科和病理学在内的各种诊断领域实现与人类水平相当的准确性(Zhang等人,2024年;Zhao等人,2025年)。已经为乳腺X光摄影专门设计了架构;例如,Mammo-Light被设计为一个浅层CNN,用于在降噪和增强步骤之后自动进行乳腺癌分类(Raiaan等人,2024年)。更复杂的模型如ERetinaNet集成了高效的多光谱通道注意力(eMCA)模块和视觉变换器(ViT),以增强对目标区域的关注,同时捕捉全局语义信息,并使用重新参数化技术加速推理(Chen等人,2024年)。为了解决2D乳腺X光摄影中的数据不足和领域转移问题,提出了BTMuda等框架,这些框架利用双层(领域内和领域间)方法和交叉注意力及蒸馏机制来提取领域不变的表示(Yang等人,2025年)。其他端到端方法如DLSEN-RS依赖于位置嵌入和聚合池化模块来定位病变,无需边界框注释或多阶段训练(Han等人,2024年)。此外,还开发了如EAGANet这样的架构,通过创新的状态空间建模和多层次防御策略来增强对抗攻击的鲁棒性(Dai等人,2026b年)。
为了进一步提高模型性能,多任务学习范式已被引入该领域,其中辅助任务提供了归纳偏差,增强了主要任务的表示学习。例如,LTRMTL-Net同时执行分割和分类,使用GradCAM引导的模块和对比学习来精确建模病变及其解剖背景(Dai等人,2025a)。其他研究将乳腺密度分类作为辅助任务,并结合定制的三重损失来捕捉连续乳腺X光片中的时间变化(Zhou等人,2024年)。类似地,BCS-Net利用简化的CLIP模型来实现图像、文本报告和坐标信息的多模态对齐,以便进行同步多任务处理(R. Li等人,2025年)。
在这些基础上,多模态医学诊断通过整合临床决策中考虑的各种因素,显示出显著的性能提升潜力(Ghosh等人,2024a)。例如,MultiBCD模型通过将图像分类器与大型语言模型GPT-4集成,同时评估乳腺X光片和患者提供的主诉(Du等人,2025年)。其他工作评估了像CLIP这样的冻结的大规模预训练视觉-语言模型,用于乳腺癌预测,与传统图像-表格模型或完全微调的方法相比,表现出更优的性能和稳定性(Vo等人,2025年)。还提出了将Transformer的视觉特征与MLP混合器的临床文本特征融合的双分支网络,用于BI-RADS分类(Ming等人,2024年)。这些研究共同表明,整合多源信息,包括图像、文本报告和临床变量,可以构建更全面和准确的诊断模型。
尽管取得了这些重大进展,但一个基本的临床和技术挑战仍然大部分未得到解决:标准乳腺X光协议中头尾(CC)和内外侧斜位(MLO)视图之间固有的非刚性变形的精确建模和补偿。在临床实践中,放射科医生在脑海中对两个视图进行3D重建和对应映射,以确认病变的真实位置和形态——这是诊断工作流程中的关键步骤。然而,大多数现有的计算模型要么将视图视为独立输入,要么依赖简化的刚性几何假设来进行特征融合。这忽略了乳腺组织在不同角度压缩时所经历的复杂变换,从而成为配准和诊断准确性的关键瓶颈。虽然最近的生成模型显示出前景,但它们的任务公式与多视图对齐的挑战有根本不同。例如,RG-DDPM(Gao等人,2024年)侧重于由文本驱动的单视图真实性,依赖于语义一致性而不是几何精度。RadiomicsFill-Mammo(Na等人,2024年)通过利用对侧乳腺来进行修复,本质上假设了生物对称性。然而,基于对称性的方法无法解决同侧CC-MLO对应问题。这个任务不是由对称性决定的,而是由复杂的非刚性力学决定的:乳腺组织在不同的压缩向量下会发生剧烈重塑。因此,核心挑战——也是我们主要任务的创新点——在于建模这种“投影变异变形”,这不能通过简单的纹理完成或对称镜像来解决,而需要明确理解组织的弹性和质量守恒。
为了解决这一差距,我们提出了Morph-Gen,这是一个基于空间条件化扩散模型的生成形态对齐框架。在我们的方法中,视图对齐不是作为一个独立的预处理步骤来处理的,而是嵌入在生成过程中。Morph-Gen学习根据给定的CC视图、文本报告中的细粒度语义信息以及动态预测的非刚性变形场,从头开始合成一个形态准确的MLO视图。这个过程迫使模型学习一个包含内容、几何变换和临床语义的解耦潜在空间。假设通过迫使模型理解和执行视图之间的非刚性变换,其内部表示将更深刻地捕捉与乳腺癌诊断相关的形态不变量和结构异常。本文的主要贡献是:(1)一个新颖的生成对齐框架,直接在像素级别对CC和MLO视图之间的非刚性变形进行建模;(2)一个多模态条件机制,实现了视觉、几何和文本语义指导的深度融合;(3)验证通过这种生成预训练任务学到的表示显著提高了下游诊断任务的性能。

部分摘录

总体框架:Morph-Gen

我们提出了Morph-Gen,这是一个新颖的生成框架,旨在通过利用空间条件化的扩散模型来学习多视角乳腺X光片之间的细粒度形态对齐。如图1所示,所提出的架构围绕一个条件去噪U-Net构建,该U-Net根据其对应的CC视图和相关的自由文本放射学报告合成目标乳腺X光视图。
为了精心指导这一生成过程,我们引入了

实验设置

为了预训练和评估我们的模型,我们利用了多个乳腺X光数据集。MVKL(X. Li等人,2025年)数据集包含2671份乳腺X光检查。其中,2764个乳腺肿块被仔细收集并进行了标注。每个肿块都附有其相应的成像报告、临床表现、病理标签和精确的分割掩膜。这种综合方法准确反映了现实世界临床环境中遇到的病例分布。

结论

在本文中,我们解决了多视角乳腺X光分析中的一个基本且经常被忽视的挑战:CC和MLO视图之间非刚性乳腺组织变形的显式建模。我们引入了Morph-Gen,这是一个新颖的生成框架,将这一挑战从一个简单的特征融合问题转变为一个复杂的、空间条件化的预训练任务。通过迫使扩散模型从源CC视图合成一个形态连贯的MLO视图,

CRediT作者贡献声明

唐青峰:撰写 – 审稿与编辑,撰写 – 原始草稿,资源获取,方法论,资金获取,概念化。丁鹏程:撰写 – 审稿与编辑,数据管理,概念化。张亮亮:撰写 – 审稿与编辑,监督,项目管理,数据管理。戴国伟:撰写 – 审稿与编辑,验证,软件。马修·汉密尔顿:撰写 – 审稿与编辑。安慧:撰写 – 审稿与编辑,资源获取。

资金

这项工作部分得到了中国国家杰出青年科学基金(资助编号:62502007)和中国国家杰出青年科学基金(资助编号:62302014)的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号