
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向文档图像阴影去除的注意力细节恢复网络(ADR-Net):基于多尺度大核注意力的动态融合策略
【字体: 大 中 小 】 时间:2025年08月15日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种新颖的注意力导向细节恢复网络(ADR-Net),通过阴影注意力生成子网络(SAGN)和多尺度大核注意力(MLKA)机制精准定位复杂阴影区域,结合动态融合(DF)策略和轻量级空间-通道卷积(LSCC),在保持低计算复杂度的同时有效解决了文档图像阴影去除中的细节丢失问题,显著提升了OCR识别性能。
Highlight亮点
• ADR-Net创新性地采用可学习注意力机制定位不同强度、形状和大小的复杂阴影区域,通过色彩空间转换生成可靠的注意力标签。
• 提出的阴影注意力生成网络(SAGN)基于多尺度大核注意力(MLKA)机制,能够建模不同范围的关联性,生成的注意力图可同时聚合全局和局部信息,避免潜在伪影。
• 开发了动态融合(DF)策略缓解训练过程中注意力图预测带来的模糊性问题,并设计了采用轻量级空间-通道卷积(LSCC)的细节精炼子网络(DRN),在减少空间和通道冗余的同时保持图像细节。
Natural Image Shadow Removal自然图像阴影去除
传统方法主要依赖图像梯度和光照信息等物理特性建模。近年来深度学习技术在[10]-[20]等低层图像处理任务和阴影去除[21]-[23]中取得显著进展。但文档图像与自然图像阴影去除存在关键差异:1)内容差异:文档方法侧重文本内容阴影及细节保护[24]-[28],而自然图像方法需保持阴影与非阴影区域的背景光照一致性[22],[23],[29],[30];2)评估差异:文档方法需结合OCR性能指标(如编辑距离ED[31]和文本检测准确率[32])。
Problem Constraints and Motivation问题约束与动机
数学上,阴影图像Is可表示为干净背景Ib与阴影层S的线性叠加:Is = Ib + S。但该方法存在局限:1)文档图像阴影具有方向、尺度和空间分布的多样性;2)直接学习Is到Ib的映射难以捕捉特定阴影特征。
Dataset and Implementation Details数据集与实现细节
在RDD[39]、Kligler's[34]、Jung's[35]和OSR[56]四个公开数据集上评估。其中RDD包含4916对图像(4371训练/545测试),涵盖不同光照条件和遮挡阴影。
Limitations and Future Work局限性与未来工作
主要局限:1)需要依赖色彩空间转换设计注意力图;2)现有评估主要基于PSNR和SSIM指标。未来将探索更客观的评估体系。
Conclusions结论
提出的ADR-Net能有效学习复杂阴影分布特征,在低复杂度下保持图像细节。通过YCbCr色彩信息引导阴影定位,采用MLKA机制生成真实注意力图,结合DF策略和LSCC实现高效细节恢复。
生物通微信公众号
知名企业招聘