PoseAlign混合结构网络:融合ViTs与CNNs优势的二维人体姿态估计新方法

【字体: 时间:2025年05月18日 来源:Scientific Reports 3.8

编辑推荐:

  为解决传统卷积神经网络(CNN)在人体姿态估计(HPE)中全局信息捕捉不足的问题,新疆大学团队提出PoseAlign混合结构网络(PAN-HS),通过空间对齐块(SAB)和通道对齐块(CAB)增强多尺度特征融合,结合重定位注意力机制(PRA)优化关键点定位。该方法在MPII数据集上达到92.74%的PCKh@0.5,显著提升复杂场景下的姿态估计精度,为计算机视觉领域提供了高效可解释的新范式。

  

在数字时代,人体姿态估计(Human Pose Estimation, HPE)已成为智能监控、虚拟现实和运动分析的核心技术。尽管基于卷积神经网络(CNN)的方法凭借其局部特征提取优势长期主导该领域,但面对拥挤场景中肢体遮挡、尺度变化等挑战时,CNN对全局上下文信息的捕捉短板日益凸显。近年来兴起的视觉Transformer(ViT)虽能突破局部感受野限制,但其计算复杂度高且丢失了图像固有的几何结构信息,导致在精细关键点定位任务中表现受限。如何融合两种架构优势,构建兼顾效率与精度的HPE模型,成为计算机视觉领域的攻坚方向。

新疆大学计算机科学与技术学院的研究团队在《Scientific Reports》发表创新成果,提出PoseAlign混合结构网络(PAN-HS)。该研究通过深度可分离卷积(DWConv)设计空间对齐块(Spatial Align Block, SAB)和通道对齐块(Channel Align Block, CAB),结合新型重定位注意力机制(Point Reposition Attention, PRA),在MPII数据集上实现92.74%的平均PCKh@0.5,较主流模型HRNetw32和Hourglass分别提升2.41%和1.82%,参数量仅12.2M且计算消耗6.8 GFLOPs,为实时高精度姿态估计提供了新思路。

关键技术方法包括:1) 采用多膨胀率(1/2/3)的并行深度可分离卷积构建SAB模块,捕获低/中/高阶空间特征;2) 通过通道增强模块(Channel Enhancement, CE)实现通道维度动态重加权;3) 设计三路径PRA机制整合局部特征与全局上下文;4) 使用MPII和CrowdPose数据集验证模型在常规与拥挤场景下的泛化能力。

PoseAlign网络混合结构
SAB模块通过公式(1)-(5)实现多阶特征融合:静态1×1卷积与自适应门控机制协同工作,配合SiLU激活函数增强非线性表达能力。实验表明,仅使用SAB即可使PCKh@0.5达到89.78%,证明其多尺度建模的有效性。

通道对齐块
CAB采用公式(6)-(8)的压缩-激活策略,通过GELU函数和通道缩放因子λc减少冗余特征。消融实验显示,CAB单独使用时模型精度达86.88%,与SAB组合后产生显著协同效应。

重定位注意力
PRA机制如公式(9)所示,通过9×9深度卷积生成空间注意力图β,结合全局池化产生的通道权重α,使腕关节、踝关节等难定位关键点的检测精度提升2.3-3.5%。可视化对比证实,PRA能有效纠正肢体重叠导致的预测偏移。

实验验证
在MPII测试集上,PAN-HS对腕部(88.72%)和踝部(86.78%)的检测精度突破现有方法瓶颈。CrowdPose数据集上72.7%的AP表明其在密集人群中的鲁棒性,AP75达79.5%验证了严格阈值下的稳定性。消融研究证实,SiLU激活函数较ReLU/GELU更适配复杂特征学习,移除多阶DWConv会致性能下降1.59%。

该研究创新性地构建了"结构建模-语义重建"三阶段框架:SAB保障几何一致性,CAB优化通道选择性,PRA完成语义对齐。相比单纯增大Transformer规模的方案,PAN-HS以更低计算成本实现性能突破,其模块化设计为后续研究提供了可扩展的基线模型。局限性在于复杂交互场景下的实时性有待提升,未来可通过神经架构搜索进一步优化计算路径。这项成果不仅推动了HPE技术的发展,也为多模态特征融合提供了普适性方法论参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号