基于YOLO的多尺度文档布局分析统一框架:动态卷积与轴向注意力融合的创新方法
《Expert Systems with Applications》:YOLO-DLA: A YOLO-Based Unified Framework for Multi-Scale Document Layout Analysis
【字体:
大
中
小
】
时间:2025年10月20日
来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出YOLO-DLA创新框架,通过构建AcadLayout数据集、引入KWConv动态卷积和PRDM-neck模块,结合宏→中→微的课程学习策略,有效解决多尺度文档布局分析(DLA)中特征提取与尺度失衡难题,为科学文档智能处理提供新范式。
(1) 针对现有数据集缺乏细粒度布局标注的问题,我们构建了AcadLayout专用数据集,包含13种科学文档布局元素类型(如多级标题、公式、图注)。
(2) 为解决多尺度特征提取挑战(特别是微尺度元素),创新性集成KWConv动态卷积方法,根据局部特征自适应调整卷积核权重。
(3) 为实现跨尺度鲁棒特征融合,提出PRDM-neck模块,独特融合轴向注意力与多尺度上下文聚合技术。
(4) 针对科学文档尺度失衡问题,提出尺度感知课程学习策略,按宏→中→微尺度渐进训练,全面提升检测均衡性。
为解决多尺度文档布局中特征提取与全局语义建模的双重挑战,我们提出YOLO-DLA框架,通过动态卷积核优化与全局上下文建模的协同组合,将DLA重构为多尺度目标检测问题。该方法采用:(1) 动态核库机制增强局部特征表征;(2) 集成轴向注意力的多尺度特征金字塔;(3) 尺度感知课程学习策略。未来将探索跨模态融合与自监督学习在复杂文档解析中的延伸应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号