
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DocAligner:基于虚实对齐的拍摄文档自动标注方法及其在文档智能中的应用
【字体: 大 中 小 】 时间:2025年07月28日 来源:Pattern Recognition 7.5
编辑推荐:
为解决拍摄文档标注数据稀缺问题,研究人员提出DocAligner方法,通过非刚性预对齐、多尺度对齐和循环细化技术实现虚实文档的像素级稠密对应,显著提升文档智能(DAI)任务中布局分析、表格识别等场景的标注效率。实验证明该方法在5类拍摄文档任务中优于现有技术,代码与数据集已开源。
在移动设备普及的今天,拍摄文档已成为文档智能(Document AI, DAI)领域的新挑战。尽管数据驱动方法在扫描文档和数字原生文档中取得进展,但拍摄文档因几何畸变、光照不均等问题导致标注数据严重匮乏。传统人工标注不仅耗时费力,对像素级任务(如几何校正、二值化)更是难以实现。这一数据困境极大阻碍了拍摄场景下DAI技术的发展。
针对这一难题,华南理工大学的研究团队在《Pattern Recognition》发表论文,提出DocAligner这一创新解决方案。该方法通过建立拍摄文档(实域)与清洁文档(虚域)的稠密对应关系,实现标注的自动迁移。其核心技术包括:基于薄板样条(Thin Plate Splines, TPS)的非刚性预对齐模块处理文档变形;结合CNN多尺度特征的分层流预测应对大位移;以及GRU循环细化模块提升高分辨率下的细节对齐精度。研究团队还构建了包含10K样本的合成数据集AlignSynth,并采用自监督学习增强模型在真实场景的鲁棒性。
方法创新
DocAligner采用三阶段处理流程:首先通过边缘检测和TPS变换实现非刚性预对齐;随后利用共享CNN提取多尺度特征,通过全局-局部相关性计算分层预测流场;最后采用GRU模块进行高分辨率流的迭代优化。训练阶段结合合成数据监督学习和真实数据自监督学习。
实验结果
局限性
当前版本对拍摄文档的初始方向敏感,需保证相机姿态正确;极端光照条件下对齐精度仍有提升空间。
这项研究首次将稠密对应技术系统应用于文档智能领域,为解决拍摄文档数据短缺提供了自动化工具。通过虚实对齐的创新思路,DocAligner不仅显著降低标注成本,更开辟了利用现有数字文档资源赋能拍摄场景的新途径。相关代码和数据集已开源,将有力推动移动端文档处理技术的发展。
生物通微信公众号
知名企业招聘