基于多模态协同学习的脑性瘫痪早期筛查新方法:CoGMA框架的提出与验证

《IEEE Transactions on Medical Imaging》:Facilitate Robust Early Screening of Cerebral Palsy via General Movements Assessment with Multi-Modality Co-Learning

【字体: 时间:2025年12月11日 来源:IEEE Transactions on Medical Imaging 9.8

编辑推荐:

  本研究针对传统全身运动评估(GMA)依赖专家主观判断、自动化方法难以兼顾准确性与效率的问题,提出了一种新颖的多模态协同学习框架CoGMA。该框架在训练阶段融合骨骼数据、临床信息、RGB视频和文本描述,推理阶段仅需骨骼和临床数据即可实现高效准确的GMA。实验表明,CoGMA在蠕动运动和烦躁运动阶段均表现出色,且在烦躁运动阶段的零样本评估中展现强大泛化能力,为脑性瘫痪(CP)早期筛查提供了可靠工具。

  
在儿童发育障碍领域,脑性瘫痪(Cerebral Palsy, CP)是最常见的运动功能障碍,严重影响患儿的生活质量。早期诊断对干预治疗至关重要,而全身运动评估(General Movements Assessment, GMA)作为一种非侵入性方法,被广泛用于评估6月龄内婴儿的神经运动行为,对CP的早期预测具有高敏感性(98%)。然而,传统GMA依赖国际认证医师的主观判断,耗时且难以普及。尽管人工智能技术为自动化GMA提供了可能,但现有方法多基于运动骨骼数据,缺乏对细微身体运动的捕捉能力,且计算效率低下,限制了其临床应用。
为解决这些问题,北京大学的研究团队在《IEEE Transactions on Medical Imaging》上发表了题为"Facilitate Robust Early Screening of Cerebral Palsy via General Movements Assessment with Multi-Modality Co-Learning"的研究,提出了CoGMA(Collaborative General Movements Assessment)框架。该研究创新性地将多模态大语言模型作为辅助网络,在训练阶段整合四种输入数据(骨骼数据、临床信息、RGB视频和文本描述),增强特征学习;在推理阶段仅需骨骼数据和临床信息即可实现高效预测,在保持高精度的同时显著提升计算效率。
研究采用的关键技术方法包括:基于STAPose3D模型的婴儿3D姿态估计、多实例学习框架下的视频分段处理、图卷积网络(GCN)骨干网络设计、多模态特征融合策略(使用SigLIP和DINOv2提取视觉特征,Qwen2-VL-7B处理文本描述),以及对比学习和自对比损失函数的优化。研究数据来自三个临床数据集(InfantWMsV1、InfantWMsV2、InfantFMsV1),涵盖蠕动运动(Writhing Movements, WMs)和烦躁运动(Fidgety Movements, FMs)两个关键发展阶段。
多模态数据处理与特征提取
研究团队首先使用自行开发的STAPose3D模型进行婴儿3D姿态估计,将骨骼表示为图结构,关节为顶点,骨骼为边。通过Florence2和SAM2模型分割婴儿区域,排除背景干扰。视频被分割为8个等长片段(实例),采用多实例学习框架处理。视觉特征提取结合了SigLIP和DINOv2模型,文本描述通过Qwen2-VL-7B生成特征,临床信息则使用CLIP模型编码。
GCN骨干网络设计
CoGMA采用图卷积网络作为骨干网络,包含十个模块,每个模块整合通道拓扑优化图卷积(CTR-GC)空间模块和分支扩张时间卷积。空间模块通过三个并行CTR-GC捕捉关节间相关性,时间模块采用多尺度设计,包含六个分支,使用不同扩张率扩大感受野。
多模态协同学习机制
通过对比学习将RGB帧特征与GCN骨架特征对齐,使用空间视觉聚合器(SVA)融合多视觉编码器特征。MLLM生成的文本特征通过可学习矩阵优化,产生类似软标签的细化分类分数,增强模型鲁棒性。
实验设计与性能评估
在内部交叉验证中,CoGMA在InfantWMsV1数据集上准确率达92.57%,敏感性和特异性分别为94.60%和89.52%,显著优于STAM、WO-GMA等现有方法。在外部验证(InfantWMsV2)中,CoGMA保持84.30%的准确率,而其他方法性能明显下降,证明其强泛化能力。在FMs阶段,CoGMA在零样本评估中达到84.82%的AUC,表明模型能有效跨阶段迁移。
消融实验与贡献度分析
消融研究表明,四模态协同学习相比单一骨架数据将准确率从86.17%提升至93.80%。文本描述分支(利用MLLM)对模型优化起关键作用,RGB视频分支显著增强骨架特征表示能力。注意力可视化显示,模型决策主要依赖骨骼分割实例,但当临床变量偏离均值时,临床信息注意力权重增加,证实其能捕捉年龄相关运动差异。
InfantAnimator:隐私保护视频生成工具
为解决医学数据共享的隐私问题,研究团队开发了InfantAnimator工具,基于StableAnimator框架专门针对婴儿运动生成匿名化视频。该工具结合YOLO-infantPose和DWPose模型,提供详细关节估计,生成的非识别性视频保留关键运动特征。
研究结论表明,CoGMA框架通过多模态协同学习显著提升了GMA的准确性和泛化能力,既适用于WMs阶段的全面评估,又能迁移至FMs阶段,解决了训练样本有限的问题。其在保持推理效率的同时,为CP早期筛查提供了可靠工具。InfantAnimator则解决了医学数据共享的隐私障碍,支持更广泛的科研合作。该研究为婴儿神经运动行为研究和早期CP检测奠定了重要基础,推动了AI在医学影像分析中的临床应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号