MOSAIC:一种多视图2.5D器官切片选择器,结合交叉注意力机制,用于医学器官分割中的解剖结构感知CT定位

《Computer Vision and Image Understanding》:MOSAIC: A multi-view 2.5D organ slice selector with cross-attentional reasoning for anatomically-aware CT localization in medical organ segmentation

【字体: 时间:2025年10月23日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  高效解剖学感知的CT多器官切片筛选框架及新型评估指标

  
Hania Ghouse|Muzammil Behzad
沙特阿拉伯法赫德国王石油与矿产大学

摘要

从腹部CT数据中高效准确地分割多个器官是医学图像分析中的一个基本挑战。现有的3D分割方法在计算和内存使用上都非常密集,通常需要处理包含许多解剖学上不相关切片的整个数据体积。同时,2D方法存在类别不平衡的问题,并且缺乏跨视图的上下文意识。为了解决这些限制,我们提出了一种新的、具有解剖学意识的切片选择流程,在分割之前减少输入数据体积。我们的统一框架引入了一种视觉-语言模型(VLM),利用来自轴向、矢状和冠状平面的融合三切片(2.5D)表示来进行跨视图器官存在检测。我们提出的模型在解剖学定位方面充当“专家”,通过对多视图表示进行推理来选择具有高结构相关性的切片。这使得在不同方向上进行空间一致的过滤成为可能,同时保留了上下文线索。更重要的是,由于标准的分割指标(如Dice或IoU)无法衡量这种切片选择的空间精度,我们引入了一个新的指标——切片定位一致性(SLC),它同时考虑了解剖覆盖范围和与以器官为中心的参考切片的空间对齐。与特定于分割的指标不同,SLC提供了一种与模型无关的定位准确性评估方法。我们的模型在所有器官上相对于几个基线都有显著的改进,展示了准确且可靠的以器官为中心的切片过滤能力。这些结果表明,我们的方法能够实现高效且空间一致的器官过滤,从而显著降低了后续分割的成本,同时保持了高解剖学精度。

引言

医学器官分割是现代诊断和治疗工作流程的核心,它能够精确识别对疾病检测、治疗计划和手术指导至关重要的解剖结构(Potineni, 2025)。计算机断层扫描(CT)无与伦比的空间分辨率和横截面成像能力使其在这些任务中不可或缺(Bhuiyan et al., 2023)。然而,处理体积型3D CT数据的计算需求仍然是实时临床应用的一个重大障碍。虽然传统的3D分割方法在捕捉整个数据体积中的复杂空间关系方面表现出色,但它们需要大量的计算资源,这往往使它们在资源有限的环境中不切实际(Dai et al., 2022)。例如,3D卷积神经网络(CNN)通过分析完整的体积上下文来实现更高的准确性,但由于其高内存和处理要求,在部署时面临挑战(Angelin Beulah S, 2025)。同时,医学图像的分析,特别是CT扫描,对于各种临床应用至关重要,包括计算机辅助诊断、手术导航和放射治疗(Liu et al., 2023)。
相比之下,文献中的传统2D方法依次处理单个切片,虽然提高了计算效率,但代价是失去了切片间的空间上下文(Zhou et al., 2023)。这一限制在多器官分割中尤为突出,因为关键的解剖细节往往跨越多个切片(Xia et al., 2018b)。临床医生和放射科医生通过利用三个正交视图——轴向、矢状和冠状视图来直观地缓解这一瓶颈,以三角测量解剖边界并评估结构间的空间关系(Bridge, 2016),如图1所示。
尽管具有丰富的空间信息,大多数自动化分割研究仍然专注于轴向切片,以利用传统的2D深度学习模型,而忽略了可能提供补充空间信息的矢状和冠状视图(Lindeijer et al., 2023)。这种狭隘的关注点放大了2D方法的固有弱点,例如它们无法捕捉3D结构连续性,导致在几何形状复杂的区域分割精度不佳(Yu et al., 2024)。此外,外围切片通常包含肌肉、骨骼或伪影等不相关结构,而中心切片可能缺乏足够的解剖细节来指导分割(Al-Ameen and Sulong, 2016)。现有的2D框架通常均匀处理所有切片,浪费计算资源在不需要关注的区域上,并且未能优先处理器官存在概率高的切片(Bott et al., 2023)。这种低效率还因类别不平衡而加剧,因为数据集中非器官切片的数量往往远多于目标结构的切片,从而偏移了模型性能,阻碍了强大的器官分割算法的训练(Tappeiner et al., 2022)。为了在2D效率和3D精度之间架起桥梁,2.5D分割的进步旨在整合相邻切片(例如当前切片、前一个切片和下一个切片),以模拟体积上下文(Zhang et al., 2019, Hung et al., 2023, Xia et al., 2018a),如图2所示。虽然这种方法相比完整的3D分析减少了计算开销,但它仍然孤立地处理切片,忽略了多平面视图提供的独特解剖学见解。例如,矢状视图可能更好地捕捉器官的纵向轮廓,而冠状视图则突出显示了侧向结构。当仅关注轴向切片时,这些关键信息就会丢失(Khan, 2019)。

文献综述

文献综述

随着深度学习的最新进展,CT扫描中的器官分割取得了显著进步,但在平衡计算效率、解剖学特异性和泛化能力方面仍存在一些挑战(Ni et al., 2024, Irshad et al., 2023)。传统方法,如可变形模型(Kumar and Jain, 2022, Kim and Ye, 2022)和图割(Fu et al., 2021, Xie et al., 2025, Wang et al., 2024),依赖于形状先验和能量最小化来分割器官,但这些方法

数据预处理和多视图切片提取

为了准备用于器官存在切片选择的体积型CT数据,需要应用一系列标准化的预处理操作。如图3中的完整流程所示,每个3D CT数据体积VRH×W×D首先从Hounsfield单位(HU)转换为标准化强度值。这从软组织范围内的[?50,200开始,所有体素强度都被剪切并线性映射到该区间内。窗口化之后,我们应用基于百分位的归一化处理

实验设置

为了验证我们提出的流程的有效性,我们进行了全面的实验,重点关注其核心组成部分。

第一阶段过滤模块的评估

如上所述,第一阶段的目标是丢弃在轴向、冠状和矢状平面上缺乏相关解剖内容的切片。针对每个视图训练了一个轻量级的二元分类器,以识别包含前景器官的信息性切片。如表8所示,我们的模型在所有视图上的分类性能都很高,平均F1分数超过0.97,ROC-AUC超过0.99,证实了模型区分信息性切片和背景切片的能力。

结论

我们提出了MOSAIC:一个多视图、具有解剖学意识的2.5D切片选择框架,它结合了视觉-语言监督和跨方向融合,用于腹部CT数据中的高效器官定位。我们的方法引入了一个轻量级的相关性过滤阶段和一个基于VLM的多器官切片选择器,该选择器处理融合的轴向、冠状和矢状切片。为了评估解剖学对齐,我们引入了一个新的指标,用于测量切片级别的定位准确性

CRediT作者贡献声明

Hania Ghouse:撰写——审阅与编辑,撰写——原始草稿,可视化,验证,软件,方法论,资金获取,正式分析,数据管理,概念化。Muzammil Behzad:撰写——审阅与编辑,可视化,监督,资源管理,项目行政。

未引用的参考文献

表1

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了法赫德国王石油与矿产大学 (KFUPM)的支持,项目编号为EC241013。作者还要感谢KFUPM-SDAIA人工智能联合研究中心提供的计算资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号