基于扩散模型的文档图像几何校正方法DiffuseDoc研究

《Computer Vision and Image Understanding》:DiffuseDoc: Document geometric rectification via diffusion model

【字体: 时间:2025年10月25日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文提出DiffuseDoc创新框架,通过联合训练几何校正模块与条件扩散模块(Conditional Diffusion Module),仅需失真-无失真图像对即可实现文档图像几何校正(Document Geometric Rectification),无需映射场真值监督。该方法在Doc-U-Net基准数据集和自建DocReal数据集上达到领先性能,显著降低数据集构建成本。

  
Highlight
文档图像几何校正方法
根据深度学习框架的应用,文档校正方法可分为传统方法和基于深度学习的方法两大类。
传统方法
在深度学习普及之前,大多数文档展平技术依赖于三维(3D)重建来估计文档形状。基于3D的方法利用几何特性或辅助硬件:Brown和Seales(2001)使用结构光3D采集技术;张等人(2008)...
文档几何校正
文档校正方法通常采用编码器-解码器结构作为通用特征提取框架,以预测像素级信息(包括前向映射和后向映射)。在本研究中,我们采用Transformer模型学习失真与无失真图像间的后向映射,并通过双线性插值生成校正图像。给定原始失真图像Iori,后向映射d可通过...
DiffuseDoc
本节介绍用于文档图像校正的新框架DiffuseDoc。如图1所示,该框架包含两个核心组件:基线几何校正网络Rθ和条件扩散网络Sθ。基线网络Rθ通过预测像素级后向映射d输出几何校正图像Irec。DiffuseDoc的核心创新在于...
数据集
本研究使用三种数据集:完整DiffuseDoc框架在Doc3D数据集上训练,评估则采用经典基准Doc-U-Net和我们提出的DocReal。需特别说明的是,Doc-U-Net及其他现有基准(如DIR300和UDIR)存在明显局限——Doc-U-Net和...
结论
本文提出文档几何校正新框架DiffuseDoc,首次将扩散模型应用于文档图像去扭曲任务。本方法的关键特点是通过联合训练扩散网络与几何校正网络,预测无失真图像的潜在特征并优化校正网络输出。扩散模型分支的引入有效降低了数据集需求。此外,我们...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号