
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多注意力融合Transformer(DART)在图像复原中的创新应用:跨维度特征与长程依赖协同建模
【字体: 大 中 小 】 时间:2025年07月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
【编辑推荐】针对Transformer模型在图像复原任务中存在的可扩展性和适应性局限,研究者提出多注意力融合复原Transformer(DART),集成LongIR线性注意力、特征维度注意力(FDA)和位置维度注意力(PDA)三大模块,在6类标准任务中实现SOTA性能。该模型仅用4.5M参数即超越Restormer(26.13M)等主流模型,为医学影像等专业领域提供可解释的专家系统解决方案。
在数字图像处理领域,图像复原技术始终面临着噪声干扰、运动模糊和分辨率损失等核心挑战。尽管基于Transformer的模型如SwinIR通过窗口注意力机制在超分辨率等任务中取得突破,但其短程交互特性难以捕捉大范围结构化特征,而Restormer等模型又因通道数激增导致高分辨率处理效率骤降。这些技术瓶颈严重制约了在医疗影像分析、安防监控等专业场景的落地应用。
针对这一现状,郑州大学信息工程学院与苏黎世联邦理工学院计算机视觉实验室联合培养的博士研究生Juan Wen团队,在《Expert Systems with Applications》发表的研究中,创新性地提出了多注意力融合复原Transformer(DART)。该框架通过三大核心技术突破:采用线性复杂度的LongIR模块实现千级token的长序列建模,解耦设计的特征维度注意力(FDA)和位置维度注意力(PDA)分别强化通道特征与空间位置的信息提取,以及动态调整感受野的窗口注意力策略,成功在单一架构中整合了跨尺度、跨维度的复原能力。
研究方法上,团队以SwinIR为基线网络,构建了包含GoPro、HIDE等标准数据集的六类任务评估体系。关键技术包括:1)线性注意力LongIR模块处理Xd输入序列;2)FDA通过特征图维度加权增强关键通道响应;3)PDA采用空间注意力掩模定位退化区域;4)深度可分离卷积降低计算复杂度。
研究结果显示:在运动去模糊任务中,DART在GoPro数据集PSNR指标上超越GRL-B模型2.1dB;参数效率方面,DART-B仅4.5M参数即达到SwinIR(11.75M)的119%推理速度;特别在医学MRI超分辨率任务中,FDA模块的可视化热图与临床病灶区域呈现89.7%的空间重合率,显著提升模型可解释性。
结论部分指出,DART的创新性体现在三个方面:首先,长程-局部注意力协同机制将结构化区域复原误差降低37.6%;其次,FDA/PDA双路径设计使纹理细节SSIM指标提升0.15;最后,模块化架构支持即插即用部署,在工业质检系统中实现200fps实时处理。该研究为构建可解释的视觉专家系统提供了新范式,其发布的轻量化DART-L版本已应用于内窥镜影像增强系统,验证了临床转化价值。
生物通微信公众号
知名企业招聘