基于交叉注意力学习与小波变换的深度学习医学图像压缩方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Deep learning based medical image compression using cross attention learning and wavelet transform

【字体：大中小】 时间：2025年11月16日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对医学图像在远程医疗和云存储中面临的带宽与存储限制问题，提出了一种结合离散小波变换（DWT）和交叉注意力学习（CAL）的混合压缩框架。通过多分辨率分解和动态特征加权，该模型在保持诊断关键区域高保真度的同时显著提升压缩效率。实验表明，该方法在LIDC-IDRI、LUNA16等数据集上PSNR、SSIM指标优于JPEG2000等主流编解码器，为实时医学影像传输提供了新方案。

随着CT、MRI等医学影像技术成为现代诊疗的核心工具，医疗机构每天产生的TB级影像数据正持续冲击着存储系统和传输带宽的极限。在远程手术、急诊会诊等场景中，图像传输的延迟或质量损失可能直接影响诊疗决策。传统无损压缩技术虽能保证像素级还原，但压缩率有限；而有损压缩虽能提升压缩效率，却可能丢失病灶边缘等关键诊断信息。这种在压缩比与重建质量之间的权衡，已成为医学图像处理领域的核心挑战。

针对这一难题，西北工业大学计算机学院的Fan Dai团队在《Scientific Reports》发表研究，创新性地将信号处理与深度学习相结合，构建了一种混合压缩框架。该框架通过离散小波变换（DWT）实现多分辨率分解，利用交叉注意力学习（CAL）模块动态筛选诊断相关特征，再借助变分自编码器（VAE）生成紧凑的潜在表征，最终实现高保真重建。

研究采用三大关键技术路径：首先利用DWT将图像分解为LL（低频）、HL（高频）等子带，实现结构与细节的分离；随后通过CAL模块的查询-键值（Query-Key-Value）机制计算注意力权重，强化病灶区域的特征保留；最后通过VAE的潜在空间正则化与熵编码优化压缩效率。实验数据来源于LIDC-IDRI、LUNA16、MosMed等公共CT/MRI数据集。

多分辨率小波分解与特征编码

DWT将输入图像分解为不同频率的子带，其中低频子带保留主要结构信息，高频子带捕捉边缘纹理。这种分解使模型能够区分处理诊断关键区域与平滑区域，为后续注意力加权提供基础。

交叉注意力驱动的特征选择

CAL模块通过多头注意力机制计算特征图间的依赖关系，显著提升病灶区域的权重。如图8所示，该模块在 wavelet 子带间建立全局关联，确保压缩过程中重点保留具有临床意义的特征。

变分自编码器与熵编码优化

VAE将注意力加权的特征映射为概率分布形式的潜在表征，结合KL散度损失约束潜在空间分布，提升重建鲁棒性。相较于传统熵编码方法，该框架通过数据驱动方式自适应优化编码参数。

深度神经网络像素估计

研究对比了3×3与1×8两种滑动窗口的像素预测模型。如图5-6所示，3×3窗口模型在MSE收敛性和像素相关性（R=0.99744）上表现更优，能更好保持空间一致性。

可训练空间滤波增强重建质量

解码阶段采用可学习的3×3卷积核进行后处理滤波，其权重通过反向传播优化。如表1所示，该方法在PSNR（31.7 dB）、SSIM（0.91）上显著优于灰狼优化（GWO）等元启发式算法。

多维度性能验证

在LIDC-IDRI等数据集上的测试表明，该框架平均PSNR达40.43 dB，SSIM为0.9715，且压缩比特率（2.91 bpp）与处理时间（635.1 ms）满足临床实时需求。图15的横向对比显示，其综合性能超越JPEG2000、HEVC及多种深度学习基线方法。

该研究通过融合小波变换的频率域分析优势与深度学习的自适应特征提取能力，实现了诊断质量与压缩效率的协同优化。其创新点在于：一是通过CAL模块实现诊断关键区域的动态感知，克服了传统编码器的静态量化局限；二是利用VAE的潜在空间正则化提升模型泛化能力；三是采用端到端的可训练滤波机制替代人工优化。未来工作可扩展至超声、PET等多模态影像，并进一步探索在移动医疗设备中的轻量化部署。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号