基于YOLO的多尺度文档布局分析统一框架:动态卷积与轴向注意力融合的创新方法

《Expert Systems with Applications》:YOLO-DLA: A YOLO-Based Unified Framework for Multi-Scale Document Layout Analysis

【字体: 时间:2025年10月20日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出YOLO-DLA创新框架,通过构建AcadLayout数据集、引入KWConv动态卷积和PRDM-neck模块,结合宏→中→微的课程学习策略,有效解决多尺度文档布局分析(DLA)中特征提取与尺度失衡难题,为科学文档智能处理提供新范式。

  
亮点
我们的主要贡献包括:
(1) 针对现有数据集缺乏细粒度布局标注的问题,我们构建了AcadLayout专用数据集,包含13种科学文档布局元素类型(如多级标题、公式、图注)。
(2) 为解决多尺度特征提取挑战(特别是微尺度元素),创新性集成KWConv动态卷积方法,根据局部特征自适应调整卷积核权重。
(3) 为实现跨尺度鲁棒特征融合,提出PRDM-neck模块,独特融合轴向注意力与多尺度上下文聚合技术。
(4) 针对科学文档尺度失衡问题,提出尺度感知课程学习策略,按宏→中→微尺度渐进训练,全面提升检测均衡性。
结论与未来工作
为解决多尺度文档布局中特征提取与全局语义建模的双重挑战,我们提出YOLO-DLA框架,通过动态卷积核优化与全局上下文建模的协同组合,将DLA重构为多尺度目标检测问题。该方法采用:(1) 动态核库机制增强局部特征表征;(2) 集成轴向注意力的多尺度特征金字塔;(3) 尺度感知课程学习策略。未来将探索跨模态融合与自监督学习在复杂文档解析中的延伸应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号