基于交叉注意力学习与小波变换的深度学习医学图像压缩方法研究
《Scientific Reports》:Deep learning based medical image compression using cross attention learning and wavelet transform
【字体:
大
中
小
】
时间:2025年11月16日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对医学图像在远程医疗和云存储中面临的带宽与存储限制问题,提出了一种结合离散小波变换(DWT)和交叉注意力学习(CAL)的混合压缩框架。通过多分辨率分解和动态特征加权,该模型在保持诊断关键区域高保真度的同时显著提升压缩效率。实验表明,该方法在LIDC-IDRI、LUNA16等数据集上PSNR、SSIM指标优于JPEG2000等主流编解码器,为实时医学影像传输提供了新方案。
随着CT、MRI等医学影像技术成为现代诊疗的核心工具,医疗机构每天产生的TB级影像数据正持续冲击着存储系统和传输带宽的极限。在远程手术、急诊会诊等场景中,图像传输的延迟或质量损失可能直接影响诊疗决策。传统无损压缩技术虽能保证像素级还原,但压缩率有限;而有损压缩虽能提升压缩效率,却可能丢失病灶边缘等关键诊断信息。这种在压缩比与重建质量之间的权衡,已成为医学图像处理领域的核心挑战。
针对这一难题,西北工业大学计算机学院的Fan Dai团队在《Scientific Reports》发表研究,创新性地将信号处理与深度学习相结合,构建了一种混合压缩框架。该框架通过离散小波变换(DWT)实现多分辨率分解,利用交叉注意力学习(CAL)模块动态筛选诊断相关特征,再借助变分自编码器(VAE)生成紧凑的潜在表征,最终实现高保真重建。
研究采用三大关键技术路径:首先利用DWT将图像分解为LL(低频)、HL(高频)等子带,实现结构与细节的分离;随后通过CAL模块的查询-键值(Query-Key-Value)机制计算注意力权重,强化病灶区域的特征保留;最后通过VAE的潜在空间正则化与熵编码优化压缩效率。实验数据来源于LIDC-IDRI、LUNA16、MosMed等公共CT/MRI数据集。
DWT将输入图像分解为不同频率的子带,其中低频子带保留主要结构信息,高频子带捕捉边缘纹理。这种分解使模型能够区分处理诊断关键区域与平滑区域,为后续注意力加权提供基础。
CAL模块通过多头注意力机制计算特征图间的依赖关系,显著提升病灶区域的权重。如图8所示,该模块在 wavelet 子带间建立全局关联,确保压缩过程中重点保留具有临床意义的特征。
VAE将注意力加权的特征映射为概率分布形式的潜在表征,结合KL散度损失约束潜在空间分布,提升重建鲁棒性。相较于传统熵编码方法,该框架通过数据驱动方式自适应优化编码参数。
研究对比了3×3与1×8两种滑动窗口的像素预测模型。如图5-6所示,3×3窗口模型在MSE收敛性和像素相关性(R=0.99744)上表现更优,能更好保持空间一致性。
解码阶段采用可学习的3×3卷积核进行后处理滤波,其权重通过反向传播优化。如表1所示,该方法在PSNR(31.7 dB)、SSIM(0.91)上显著优于灰狼优化(GWO)等元启发式算法。
在LIDC-IDRI等数据集上的测试表明,该框架平均PSNR达40.43 dB,SSIM为0.9715,且压缩比特率(2.91 bpp)与处理时间(635.1 ms)满足临床实时需求。图15的横向对比显示,其综合性能超越JPEG2000、HEVC及多种深度学习基线方法。
该研究通过融合小波变换的频率域分析优势与深度学习的自适应特征提取能力,实现了诊断质量与压缩效率的协同优化。其创新点在于:一是通过CAL模块实现诊断关键区域的动态感知,克服了传统编码器的静态量化局限;二是利用VAE的潜在空间正则化提升模型泛化能力;三是采用端到端的可训练滤波机制替代人工优化。未来工作可扩展至超声、PET等多模态影像,并进一步探索在移动医疗设备中的轻量化部署。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号