
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于检索增强的视觉包裹发票地址校正Transformer模型研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决韩国邮政物流中手写地址识别准确率低的难题,研究人员提出检索增强视觉包裹发票理解模型(Re-VPIU)。该模型结合文档理解Transformer(DONUT)与检索增强生成(RAG)技术,实现端到端信息提取与动态地址校正,F1值达83.42%,较现有技术提升12.17%,首次将RAG应用于视觉文档理解领域。
在数字化物流时代,韩国邮政系统面临一个独特挑战:手写包裹发票的地址识别准确率始终难以突破。这并非简单的技术瓶颈,而是源于韩国特有的"双轨制"地址系统——同时使用传统地籍编号和现代道路命名两种体系。更棘手的是,老年人等数字弱势群体仍依赖手写填单,而现有OCR技术如Google Lens对韩文手写体的识别错误率高达17%(如将"Chilsan-ro"误读为"Cheolsan-ro")。这种现状严重制约了邮政自动化进程,每年造成数百万韩元的人工复核成本。
针对这一痛点,由韩国机构资助的研究团队在《Engineering Applications of Artificial Intelligence》发表突破性成果。他们创新性地将文档理解Transformer(DONUT)与检索增强生成(RAG)技术融合,开发出Re-VPIU模型。该方案首先通过DONUT实现端到端的视觉信息提取,再借助大型语言模型(LLM)动态检索韩国地址数据库,实现字符级与词汇级双重校正。关键技术包括:1)基于4800组训练数据微调DONUT模型;2)构建包含韩国道路名与地籍编号的混合地址数据库;3)设计特定prompt优化LLM的检索增强生成效果;4)在NVIDIA RTX 4090平台完成模型验证。
Re-VPIU模型架构
研究采用两阶段流水线设计。信息提取阶段,DONUT模型直接将731×298像素的发票图像转换为结构化文本,避免传统OCR的误差累积。校正阶段引入RAG机制,当检测到地址字段时,实时检索官方数据库并生成修正建议,如将模糊识别的"江东区"自动补全为"首尔特别市江东区"。
实验验证
在600组验证样本测试中,完整地址识别的F1-score达83.42%,较基线模型提升12.17个百分点。特别在路名识别任务中,模型成功区分了98.3%的韩文形近字(如"Chil"与"Cheol")。对比实验显示,传统基于规则的后处理方法仅能实现字符级修正,而Re-VPIU可同步完成行政区划缺失(word-level)和字符笔误(character-level)的双重校正。
结论与展望
该研究首次将RAG范式引入视觉文档理解领域,突破性地解决了三个关键问题:1)无需重新训练即可动态更新地址知识库;2)兼容韩国复杂的双轨制地址体系;3)实现端到端的自动化处理流程。技术负责人Won-Yeol Kim指出,该方法已申请专利,预计可减少邮政企业70%的人工复核成本。未来研究将扩展至中文、日文等多语种场景,并探索DNA标记等新兴技术在物流自动化中的应用。论文同时披露,该技术已获得韩国国土交通部(KAIA)及信息通信技术振兴院(IITP)的联合资助,验证了其产业转化潜力。
生物通微信公众号
知名企业招聘