可学习的补丁匹配技术与自适应学习方法,用于单目内窥镜下的多帧深度估计

《Engineering Applications of Artificial Intelligence》:Learnable patchmatch and self-teaching for multi-frame depth estimation in monocular endoscopy

【字体: 时间:2025年10月02日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文提出一种基于多帧的未监督单目深度估计模型,通过可学习的patchmatch模块增强低纹理区域的区分能力,结合跨教学和自教学一致性有效抑制亮度波动,在多个内窥镜数据集上验证其优于现有方法。

  本文探讨了在内窥镜场景中进行无监督单目深度估计的问题。单目深度估计是一种通过单个RGB图像来推断场景深度的技术,广泛应用于手术导航、增强现实等领域。然而,在实际应用中,特别是在内窥镜环境中,单目方法面临诸多挑战,如组织纹理稀疏、同质性区域以及帧间亮度变化等问题,这些都会影响深度估计的准确性和鲁棒性。因此,本文提出了一种新的无监督多帧单目深度估计模型,旨在更有效地利用帧间的时间相关性,以提高深度预测的性能。

传统的单目深度估计方法通常依赖于硬件传感器,例如结构光或激光扫描仪,这些设备能够直接测量深度范围。然而,这类设备成本较高,且难以实现密集的深度图。相比之下,单目方法通过软件算法从单个RGB图像中推断深度,不仅降低了成本,还提高了系统的灵活性。近年来,随着深度学习技术的发展,许多研究开始利用相邻帧之间的信息作为监督信号,从而在训练过程中不需要依赖昂贵的硬件传感器。例如,AF-SfMLearner(Shao et al., 2022)通过引入外观流(appearance flow)机制,有效处理了帧间的亮度变化,从而提高了深度估计的准确性。然而,外观流网络的训练过程需要大量的内存资源,这限制了其在实际应用中的可扩展性。

为了解决上述问题,本文提出了一种新的无监督多帧单目深度估计模型,该模型结合了三种关键机制:可学习的补丁匹配模块、交叉教学和自教学一致性约束。首先,针对内窥镜场景中组织纹理稀疏和同质性区域的问题,本文引入了可学习的补丁匹配模块。该模块通过自适应传播机制,增强了模型在这些区域的判别能力,从而减少潜在的深度预测错误。与传统的固定网格采样方法不同,本文采用的可学习补丁匹配模块能够根据场景几何动态调整,使得模型在处理深度不连续区域时更加稳健。

其次,为了提高模型对亮度变化的鲁棒性,本文引入了交叉教学和自教学一致性约束。交叉教学机制利用预训练的AF-SfMLearner模型,在亮度变化发生时提供更准确的监督信号,从而减少深度预测的误差。自教学机制则通过构建外观模拟器,生成包含亮度变化和遮挡等边缘情况的损坏帧,并结合原始帧和损坏帧的输入,构建成本体积(cost volume)。随后,模型在对应深度预测之间施加一致性约束,从而抑制成本体积中不准确的区域,使模型更加专注于有效信息。

此外,本文还设计了一种数据增强策略,以提高模型在训练过程中的泛化能力。该策略通过外观模拟器生成损坏帧,并结合原始帧和损坏帧的输入,构建成本体积。这种数据增强方法不仅提高了模型对亮度变化的鲁棒性,还增强了其对遮挡等复杂情况的适应能力。通过引入这些机制,本文的模型在多个内窥镜数据集上的实验结果表明,其性能显著优于现有的无监督单目深度估计方法,如AF-SfMLearner和ManyDepth。

本文的实验部分涵盖了多个内窥镜数据集,包括SCARED、EndoSLAM、Hamlyn、SERV-CT、C3VD和Kvasir。这些数据集涵盖了不同类型的内窥镜场景,如腹部解剖、消化道器官、心脏模型等。通过在这些数据集上的对比实验,本文验证了所提出模型的有效性,并展示了其在不同场景下的表现。实验结果表明,该模型在Abs Rel指标上分别比可学习补丁匹配模块、交叉教学和自教学机制提升了13.2%、7.4%和10.3%。

本文的创新点主要体现在以下几个方面:首先,提出了一种新的无监督多帧单目深度估计模型,该模型能够充分利用内窥镜场景中的时间相关性,提高深度预测的准确性。其次,引入了可学习的补丁匹配模块,通过自适应传播机制增强了模型在低纹理和同质性区域的判别能力,从而减少潜在的深度预测错误。第三,通过交叉教学和自教学一致性约束,提高了模型对亮度变化的鲁棒性,使其在复杂环境下仍能保持较高的预测精度。最后,本文设计了一种数据增强策略,通过外观模拟器生成损坏帧,并结合原始帧和损坏帧的输入,构建成本体积,从而增强模型的泛化能力和鲁棒性。

在方法论部分,本文详细描述了成本体积的构建过程,以及所提出的三种关键模块的设计和实现。成本体积是无监督单目深度估计中的重要组成部分,它通过比较不同帧之间的外观相似性来估计深度。在构建成本体积时,本文结合了原始帧和损坏帧的输入,从而增强了模型对亮度变化和遮挡等复杂情况的适应能力。可学习的补丁匹配模块通过自适应传播机制,动态调整补丁的采样位置,使得模型能够更好地匹配相似深度区域,从而减少潜在的深度预测错误。交叉教学机制利用预训练的AF-SfMLearner模型,在亮度变化发生时提供更准确的监督信号,从而提高深度估计的准确性。自教学机制则通过一致性约束,使模型在处理成本体积中的不准确信息时更加稳健。

在实验部分,本文对所提出模型进行了详尽的评估,涵盖了多个内窥镜数据集。实验结果表明,该模型在多个指标上均优于现有的无监督单目深度估计方法,如AF-SfMLearner和ManyDepth。此外,本文还进行了消融实验,以验证各个模块对模型性能的影响。消融实验结果表明,可学习的补丁匹配模块、交叉教学和自教学机制分别在Abs Rel指标上提升了13.2%、7.4%和10.3%。这些结果进一步证明了所提出模型的有效性。

本文的研究意义在于,它为内窥镜场景中的无监督单目深度估计提供了一种新的解决方案。通过引入可学习的补丁匹配模块、交叉教学和自教学一致性约束,该模型能够更有效地利用帧间的时间相关性,提高深度预测的准确性。此外,该模型还具备良好的鲁棒性,能够适应内窥镜场景中的复杂情况,如亮度变化和遮挡。这些特性使得该模型在手术导航、增强现实等应用中具有较大的潜力。

综上所述,本文的创新点在于提出了一种新的无监督多帧单目深度估计模型,该模型通过引入可学习的补丁匹配模块、交叉教学和自教学一致性约束,有效解决了内窥镜场景中的深度估计难题。实验结果表明,该模型在多个内窥镜数据集上的表现优于现有方法,验证了其有效性。未来的研究方向可以包括进一步优化模型的效率,提高其在实时应用中的性能,以及探索更多适用于内窥镜场景的数据增强策略。此外,还可以考虑将该模型与其他深度学习技术结合,以提高其在复杂场景中的适应能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号