
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer层级特征学习的图像高效校正网络Rectformer研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
针对图像拼接中单应性/多应性对齐导致的边界不规则问题,华中科技大学团队提出基于Transformer的Rectformer网络,通过全局-局部特征模块(GLF)和双向上下文损失(BC)、形变一致性损失(DC),实现保留图像结构的矩形化校正,在DIR-D和DRC-D数据集上超越现有方法,为工业检测和医疗HR测量提供新方案。
图像拼接技术虽能合成广视角图像,但传统单应性(single-homography)或多应性(multi-homography)对齐会产生锯齿状边界,裁剪或修复又会丢失真实内容。现有深度学习方法虽提升保真度,却因卷积感受野局限导致形变不连续。如何平衡全局结构与局部细节,成为工业检测和医疗高分辨率(HR)测量领域的核心挑战。
华中科技大学团队在《Neurocomputing》发表的研究提出Rectformer网络,创新性融合Transformer与动态卷积,通过混合自注意力模块(Hybrid Self-Attention)捕捉长程依赖,结合动态卷积(Dynamic Convolution)提取局部特征,辅以双向上下文(BC)损失和自监督形变一致性(DC)损失,在DIR-D和DRC-D数据集上实现最优性能。该工作为图像校正提供了兼顾效率与精度的新范式。
关键技术包括:1) 构建GLF模块分层提取特征;2) 采用残差流(RF)预测大位移形变;3) 设计BC损失保留局部结构;4) 通过数据增强生成扰动样本训练DC损失。
【Related work】
分析指出现有方法中,He等的内容感知多网格扭曲算法会扭曲非线性结构,Nie等的深度学习方案因缺乏长程建模产生伪影,凸显全局-局部协同建模的必要性。
【Overview】
通过内容感知网格变形框架,先预测网格角点位移并转换为单应性矩阵,再结合RF实现像素级校正。GLF模块中水平/垂直/可变形窗口自注意力降低计算复杂度,动态卷积分支增强细节保持能力。
【Experiments】
在旋转校正和矩形化任务中,Rectformer的PSNR比Nie等方法提升2.1dB,形变连续性指标改善37%。交叉数据集测试显示DC损失使泛化性能提升21%。
【Limitation】
对存在拼接错位的输入图像仍需后处理,未来可结合扩散模型优化细节。
该研究突破传统卷积网络的感受野限制,通过Transformer架构实现图像校正领域的三大创新:1) GLF模块建立分层特征交互机制;2) BC-DC双损失体系兼顾局部保真与全局连贯;3) 自监督策略减少对标注数据的依赖。其技术路线为医疗影像拼接、工业检测等需要高精度几何校正的场景提供了可靠解决方案,特别是内容感知网格变形框架对处理大位移形变具有普适性参考价值。
生物通微信公众号
知名企业招聘