
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态图像融合技术在新生儿重症监护环境中的姿态估计研究
【字体: 大 中 小 】 时间:2025年08月23日 来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对新生儿重症监护病房(NICU)中早产儿视觉监测的挑战,创新性地提出结合RGB、深度和红外(IR)图像的融合算法,用于临床环境下新生儿姿态估计。团队通过24小时真实临床数据采集,开发了晚期融合(LIF-3)模型,实现0.811的平均精度(AP),首次系统评估了覆盖物和体位对算法性能的影响。该研究为NICU智能监测系统开发提供了重要技术支撑,相关成果发表于《npj Digital Medicine》。
在新生儿重症监护领域,早产儿的持续监测关乎生存质量与发育结局。尽管现代NICU配备了完善的生理参数监测系统,医护人员仍面临视觉监测的"盲区"——每个护士需要同时照看多个患儿,而传统摄像头系统在复杂临床环境中表现欠佳。现有研究多聚焦理想化场景:充足光照、无覆盖物、仰卧位婴儿,这与实际NICU环境相去甚远。临床实践中,保温箱内布满监护设备,婴儿常被毯子覆盖或采取侧卧位以促进发育,这些因素使计算机视觉技术的临床应用面临严峻挑战。
为突破这一瓶颈,剑桥大学团队开展了创新性研究。他们设计了三模态成像系统,采集了24名早产儿在真实临床环境下的RGB、深度和IR视频数据,时间跨度包括1小时和24小时记录。研究采用迁移学习策略,基于HRNet、HRFormer和ViTPose等先进架构,开发了早期(EIF)、中期(IIF)和晚期(LIF)三类融合算法。特别值得注意的是24小时记录包含了常规护理操作、光线变化和家长互动等真实场景,护士被要求完全忽略摄像头的存在以保持临床真实性。
关键技术方法包括:1)使用Azure Kinect采集三模态图像数据(RGB 1280×720,深度/IR上采样至相同分辨率);2)构建包含14例1小时和10例24小时记录的临床数据集,覆盖不同胎龄(23+1-34+6周)和体重(485-2130g)的早产儿;3)采用五折交叉验证评估模型性能,重点关注肩髋四个关键点;4)开发三类融合架构(EIF、IIF-X、LIF-X)并比较其AP和OKS指标;5)系统分析覆盖程度(无/半/3/4/全)和体位(仰卧/俯卧/侧卧)对算法的影响。
【数据集特征】分析24小时记录发现,婴儿仅约50%时间处于无覆盖或半覆盖状态,44%时间为侧卧位,完全覆盖占24%。这种真实场景分布与现有研究使用的理想化数据集形成鲜明对比,凸显本研究的临床相关性。
【模型性能】HRNet-W48 LIF-3模型表现最优(AP=0.811),其特点包括:1)晚期热图融合策略;2)384×384输入分辨率;3)对缺失模态具有较强鲁棒性(仅深度图像时AP仅降至0.813)。相比之下,ViTPose架构表现欠佳,可能与数据规模不足有关。值得注意的是,深度单模态模型(AP=0.785)优于RGB模型(AP=0.779),显示深度信息在复杂环境中的独特价值。
【临床应用分析】覆盖程度显著影响检测精度:完全覆盖使OKS中位数降至0.86,而干预操作会进一步降低性能。体位影响显示:侧卧位检测难度显著高于仰/俯卧位(p<1e-5),这与临床实际相符——侧卧时关键点空间关系更复杂。研究还发现,成人预训练模型在新生儿数据上表现不佳(AP=0.118),而本研究的模型在BabyPose数据集上达到0.824 AP,显示良好的NICU场景泛化能力。
【技术贡献】研究提出了三方面创新:1)首次系统评估真实NICU环境下多模态融合算法的性能;2)建立包含完整临床场景(覆盖/体位/干预)的标注数据集;3)验证了晚期融合策略在计算资源与精度间的平衡优势。HRFormer-S IIF-2模型以较小参数量(9.1M)实现0.809 AP,适合床边实时处理。
这项发表于《npj Digital Medicine》的研究具有重要临床意义。首先,它确立了多模态成像在复杂医疗环境中的技术优势,深度和IR信息可补偿RGB在低光照/覆盖场景的不足。其次,研究首次量化了临床常见因素(如侧卧位占44%时间)对算法的影响,为后续研究设立基准。更重要的是,该技术可支持多种应用:低频(1fps)监测体位是否符合指南,高频分析用于全身运动评估(GMA),或为生命体征监测算法提供ROI参考。研究者特别强调,未来新生儿视觉算法验证必须包含覆盖和侧卧场景,这对提高技术临床转化成功率至关重要。
研究也指出了若干改进方向:需扩展至全身关键点标注,开发非对称剪枝策略降低计算成本,以及探索压力垫等辅助传感器融合方案。随着医疗AI向真实世界场景深入,这种紧密结合临床需求的技术创新范式,将为数字医疗发展提供重要借鉴。
生物通微信公众号
知名企业招聘