
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Mamba网络的多尺度多维关键点回归模型:单目RGB图像三维手部姿态精准估计新范式
【字体: 大 中 小 】 时间:2025年06月12日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对单目RGB图像中因自遮挡/互遮挡和外观模糊导致的3D手部姿态估计难题,研究者提出了一种基于Mamba架构的创新网络。该模型通过改进的多尺度特征金字塔网络(FPN)、多维注意力特征聚合模块(MMAFAM)和Mamba长序列建模能力,在InterHand2.6M和RHP数据集上实现了关键点检测精度与推理速度的双重突破,为AR/VR人机交互提供了高效解决方案。
在元宇宙和智能交互时代,精确捕捉手部动作是实现自然人机交互的核心技术。然而,当人们试图通过单目RGB摄像头重建三维手部姿态时,手指交叉造成的自遮挡、双手交互引发的互遮挡,以及肤色纹理的高度相似性,如同三道难以逾越的技术鸿沟。传统卷积神经网络(CNN)受限于局部感受野,Transformer又面临计算复杂度爆炸的困境,使得现有方法在复杂手势下的定位误差高达数十毫米,严重制约了虚拟手术训练、手语识别等关键应用的发展。
针对这一挑战,来自国内的研究团队在《Expert Systems with Applications》发表了一项突破性研究。他们创造性地将新兴的Mamba架构——一种具有选择性状态空间机制的序列模型,引入到3D手部姿态估计领域。通过构建包含多尺度特征提取器、多维注意力聚合模块和Mamba精修模块的三段式网络,该研究在保持实时推理速度的同时,将关键点定位精度提升至新高度。
关键技术方法包括:(1)采用改进的特征金字塔网络(FPN)融合低层细节与高层语义特征,结合空洞卷积扩大感受野;(2)设计并行子网络的多维注意力机制(MMAFAM),在通道和空间维度动态加权关键点邻近特征;(3)首次将Mamba模块嵌入多尺度特征图,通过状态空间方程建模跨关节的长期依赖关系。实验基于InterHand2.6M(136万训练图像)和RHP两个标准数据集展开。
多尺度特征提取器
研究团队改造了传统FPN结构,在特征融合阶段引入跨层跳跃连接。通过可视化热图发现,这种设计使网络能同时捕捉指尖的微观位移(局部特征)和手掌朝向的宏观变化(全局特征)。消融实验显示,加入空洞卷积后,对握拳等紧凑手势的识别准确率提升12.7%。
多维注意力特征聚合
该模块创新性地采用并行支路处理不同尺度特征。定量分析表明,空间注意力支路能有效增强指关节区域的激活强度,而通道注意力支路则抑制了背景噪声干扰。在双手交叉场景下,该机制使关键点误检率降低23.4%。
Mamba精修模块
通过对比Transformer基线,Mamba展现出惊人的效率优势:在序列长度达到256时,其内存占用仅为前者的1/8。动力学分析揭示,Mamba的选择性扫描机制能自动聚焦于被遮挡关节与可见关节的几何约束关系,这对解决小指被拇指遮挡等典型难题具有关键作用。
研究结论指出,这种"多尺度感知-注意力聚焦-序列建模"的三阶段架构,首次实现了精度与速度的协同优化。在InterHand2.6M测试集上,该方法将平均关节位置误差降至8.3mm,比当前最优方法提升15%,同时推理速度达到67FPS。尤为重要的是,在难度最高的双手交互子集上,其性能波动幅度小于3%,展现出卓越的鲁棒性。
讨论部分强调了该工作的两大革新:其一,Mamba在视觉任务中的成功迁移,为突破Transformer的计算瓶颈提供了新思路;其二,多维注意力机制与生物视觉系统的选择性注意特性高度吻合,这为开发类脑视觉算法开辟了路径。研究者特别指出,未来可将该框架扩展至全身姿态估计领域,但其在极端光照条件下的稳定性仍需进一步验证。这项研究不仅为实时手势控制提供了可靠技术方案,更为深度学习模型的结构设计带来了方法论层面的启示。
生物通微信公众号
知名企业招聘