基于检索增强的视觉包裹发票地址校正Transformer模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月22日 来源：Engineering Applications of Artificial Intelligence 7.5

编辑推荐：

　　为解决韩国邮政物流中手写地址识别准确率低的难题，研究人员提出检索增强视觉包裹发票理解模型(Re-VPIU)。该模型结合文档理解Transformer(DONUT)与检索增强生成(RAG)技术，实现端到端信息提取与动态地址校正，F1值达83.42%，较现有技术提升12.17%，首次将RAG应用于视觉文档理解领域。

在数字化物流时代，韩国邮政系统面临一个独特挑战：手写包裹发票的地址识别准确率始终难以突破。这并非简单的技术瓶颈，而是源于韩国特有的"双轨制"地址系统——同时使用传统地籍编号和现代道路命名两种体系。更棘手的是，老年人等数字弱势群体仍依赖手写填单，而现有OCR技术如Google Lens对韩文手写体的识别错误率高达17%（如将"Chilsan-ro"误读为"Cheolsan-ro"）。这种现状严重制约了邮政自动化进程，每年造成数百万韩元的人工复核成本。

针对这一痛点，由韩国机构资助的研究团队在《Engineering Applications of Artificial Intelligence》发表突破性成果。他们创新性地将文档理解Transformer(DONUT)与检索增强生成(RAG)技术融合，开发出Re-VPIU模型。该方案首先通过DONUT实现端到端的视觉信息提取，再借助大型语言模型(LLM)动态检索韩国地址数据库，实现字符级与词汇级双重校正。关键技术包括：1）基于4800组训练数据微调DONUT模型；2）构建包含韩国道路名与地籍编号的混合地址数据库；3）设计特定prompt优化LLM的检索增强生成效果；4）在NVIDIA RTX 4090平台完成模型验证。

Re-VPIU模型架构
研究采用两阶段流水线设计。信息提取阶段，DONUT模型直接将731×298像素的发票图像转换为结构化文本，避免传统OCR的误差累积。校正阶段引入RAG机制，当检测到地址字段时，实时检索官方数据库并生成修正建议，如将模糊识别的"江东区"自动补全为"首尔特别市江东区"。

实验验证
在600组验证样本测试中，完整地址识别的F1-score达83.42%，较基线模型提升12.17个百分点。特别在路名识别任务中，模型成功区分了98.3%的韩文形近字（如"Chil"与"Cheol"）。对比实验显示，传统基于规则的后处理方法仅能实现字符级修正，而Re-VPIU可同步完成行政区划缺失（word-level）和字符笔误（character-level）的双重校正。

结论与展望
该研究首次将RAG范式引入视觉文档理解领域，突破性地解决了三个关键问题：1）无需重新训练即可动态更新地址知识库；2）兼容韩国复杂的双轨制地址体系；3）实现端到端的自动化处理流程。技术负责人Won-Yeol Kim指出，该方法已申请专利，预计可减少邮政企业70%的人工复核成本。未来研究将扩展至中文、日文等多语种场景，并探索DNA标记等新兴技术在物流自动化中的应用。论文同时披露，该技术已获得韩国国土交通部(KAIA)及信息通信技术振兴院(IITP)的联合资助，验证了其产业转化潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号