基于检索增强的视觉包裹发票地址校正Transformer模型研究

【字体: 时间:2025年06月22日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决韩国邮政物流中手写地址识别准确率低的难题,研究人员提出检索增强视觉包裹发票理解模型(Re-VPIU)。该模型结合文档理解Transformer(DONUT)与检索增强生成(RAG)技术,实现端到端信息提取与动态地址校正,F1值达83.42%,较现有技术提升12.17%,首次将RAG应用于视觉文档理解领域。

  

在数字化物流时代,韩国邮政系统面临一个独特挑战:手写包裹发票的地址识别准确率始终难以突破。这并非简单的技术瓶颈,而是源于韩国特有的"双轨制"地址系统——同时使用传统地籍编号和现代道路命名两种体系。更棘手的是,老年人等数字弱势群体仍依赖手写填单,而现有OCR技术如Google Lens对韩文手写体的识别错误率高达17%(如将"Chilsan-ro"误读为"Cheolsan-ro")。这种现状严重制约了邮政自动化进程,每年造成数百万韩元的人工复核成本。

针对这一痛点,由韩国机构资助的研究团队在《Engineering Applications of Artificial Intelligence》发表突破性成果。他们创新性地将文档理解Transformer(DONUT)与检索增强生成(RAG)技术融合,开发出Re-VPIU模型。该方案首先通过DONUT实现端到端的视觉信息提取,再借助大型语言模型(LLM)动态检索韩国地址数据库,实现字符级与词汇级双重校正。关键技术包括:1)基于4800组训练数据微调DONUT模型;2)构建包含韩国道路名与地籍编号的混合地址数据库;3)设计特定prompt优化LLM的检索增强生成效果;4)在NVIDIA RTX 4090平台完成模型验证。

Re-VPIU模型架构
研究采用两阶段流水线设计。信息提取阶段,DONUT模型直接将731×298像素的发票图像转换为结构化文本,避免传统OCR的误差累积。校正阶段引入RAG机制,当检测到地址字段时,实时检索官方数据库并生成修正建议,如将模糊识别的"江东区"自动补全为"首尔特别市江东区"。

实验验证
在600组验证样本测试中,完整地址识别的F1-score达83.42%,较基线模型提升12.17个百分点。特别在路名识别任务中,模型成功区分了98.3%的韩文形近字(如"Chil"与"Cheol")。对比实验显示,传统基于规则的后处理方法仅能实现字符级修正,而Re-VPIU可同步完成行政区划缺失(word-level)和字符笔误(character-level)的双重校正。

结论与展望
该研究首次将RAG范式引入视觉文档理解领域,突破性地解决了三个关键问题:1)无需重新训练即可动态更新地址知识库;2)兼容韩国复杂的双轨制地址体系;3)实现端到端的自动化处理流程。技术负责人Won-Yeol Kim指出,该方法已申请专利,预计可减少邮政企业70%的人工复核成本。未来研究将扩展至中文、日文等多语种场景,并探索DNA标记等新兴技术在物流自动化中的应用。论文同时披露,该技术已获得韩国国土交通部(KAIA)及信息通信技术振兴院(IITP)的联合资助,验证了其产业转化潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号