
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习RGB图像序列的头姿估计技术及其在远程颈椎活动度测量中的创新应用
【字体: 大 中 小 】 时间:2025年06月22日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
本研究针对远程医疗中颈椎活动度(CROM)测量存在的误差大、依赖深度相机等问题,创新性地将金字塔特征聚合结构(PFAS)与改进的空洞空间金字塔池化(ASPP)模块相结合,开发了基于EfficientNetV2-S的深度学习头姿估计算法。在300W_LP等公开数据集上实现平均MAE 3.36°的精度,医疗私有数据集误差仅3.73°,推理速度达2.27ms/帧,为远程康复提供了高精度、低成本的解决方案。
在COVID-19大流行和老龄化社会背景下,远程医疗面临重大挑战:如何准确评估颈椎活动度(CROM)这一关乎日常活动能力的关键指标。传统测量依赖接触式设备如CROM仪或辐射性影像学检查,而现有视觉方法如Kinect或OpenFace存在误差大(MAE>5°)、依赖深度相机等问题。更棘手的是,远程视频会因网络带宽限制导致画质压缩,进一步放大测量误差。
为解决这一难题,来自台湾教育部高龄社会创新研究中心的研究团队在《Computers in Biology and Medicine》发表创新研究。他们巧妙地将计算机视觉领域的头姿估计(HPE)技术引入医疗场景,开发出基于金字塔结构的深度学习算法。该技术仅需普通RGB摄像头,在Ramathibodi医院15名受试者构成的医疗数据集上实现3.73°的MAE,完全满足临床对CROM测量工具"准确、非接触、低成本"的核心要求。
关键技术包含:1) 多级金字塔特征提取架构;2) 双向金字塔特征聚合结构(PFAS)实现跨层注意力融合;3) 改进型空洞空间金字塔池化(ASPP)增强空间/通道特征;4) 多区间分类回归模块精确输出Euler角。实验采用Frankfort平面(外耳道与眶下缘连线构成的标准平面)作为角度计算基准。
主要研究结果
网络架构创新
通过EfficientNetV2-S骨干网络提取多尺度特征,PFAS模块采用双向金字塔结构实现自上而下和自下而上的特征融合,结合改进ASPP模块(含5组不同膨胀率的空洞卷积)扩大感受野。相比传统HPE方法,该设计在BIWI数据集上将yaw角误差降低至2.16°。
医疗场景验证
在模拟远程医疗场景下,对6种颈椎运动(屈伸/侧弯/旋转)进行测量。与CROM仪对比显示:pitch角(屈伸)误差3.82°,roll角(侧弯)3.65°,yaw角(旋转)3.71°,均显著低于Kinect等传统方法。特别值得注意的是,该算法对视频压缩具有鲁棒性,符合远程医疗带宽限制的实际需求。
计算效率优势
模型参数量仅24.6M,在NVIDIA RTX 2080Ti上单帧处理仅需2.27ms。相比需要3D面部标志点的CMOR系统,本方法计算复杂度降低47%,更适合移动端部署。
结论与展望
该研究首次将深度学习HPE技术成功应用于CROM远程测量,通过金字塔特征融合和跨层注意力机制,在保持轻量化的同时实现临床级精度。其重要意义在于:1) 为帕金森病、颈椎退行性病变等运动功能障碍的远程评估提供新工具;2) 所提出的PFAS-ASPP混合架构为其他生物力学测量任务提供借鉴;3) 开源代码(GitHub可获取)促进技术转化。未来可探索多模态数据融合进一步提升在面部遮挡场景下的鲁棒性。
生物通微信公众号
知名企业招聘