基于3D运动量化的视频癫痫发作分类多方法比较研究

《Biomedical Signal Processing and Control》:Video-based epileptic seizure classification: A novel multi-stage approach integrating vision and motion transformer deep learning models

【字体: 时间:2025年10月19日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  本研究针对癫痫发作视频分类中数据稀缺和运动特征提取困难的挑战,开发了一种多步骤架构,通过2D/3D人体姿态估计自动提取运动量化指标,并比较了基于骨架的迁移学习(MotionBERT Action)与基于量化指标的传统机器学习(Random Forest/XGBoost)在5类、3类和二元癫痫分类任务中的性能。结果表明,基于量化指标的Random Forest模型在最具挑战性的5类分类中取得了0.84 ± 0.09的宏F1分数,优于基于骨架的深度学习方法,为临床诊断支持提供了高效且可解释的新途径。

  
在神经病学领域,准确区分不同类型的癫痫发作是制定有效治疗方案的关键。然而,这并非易事。癫痫发作的临床表现,即发作现象学(Semiology),复杂多样,不同发作类型之间症状重叠度高,即使对于经验丰富的神经科医生而言,主观判断也常常面临挑战。例如,额叶癫痫中的过度运动性发作(Hypermotor Seizure)与心因性非癫痫性发作(Psychogenic Non-Epileptic Seizure, PNES)在视频记录中可能表现出相似的大幅度肢体运动,但二者的病因和治疗方案却截然不同。前者需要抗癫痫药物治疗,而后者则主要依靠心理干预。因此,开发客观、自动化的辅助诊断工具,利用视频数据对癫痫发作类型进行精确分类,具有重要的临床意义。
现有的基于视频的自动分类方法主要面临两大瓶颈:一是对大规模、高质量标注数据的依赖,二是计算复杂度高。许多研究采用直接从视频帧中学习特征的端到端深度学习模型,但这些模型通常是“数据饥渴型”的,且在计算资源和数据存储方面要求苛刻。此外,这些“黑箱”模型的可解释性较差,难以获得临床医生的信任。另一种思路是先将视频转换为更抽象但信息丰富的表示形式,如人体骨架序列,再进行分析。这种方法能显著降低数据维度,但如何从具有遮挡、光线不佳、存在医护人员干扰的医院监护室(Epilepsy Monitoring Unit, EMU)视频中,鲁棒地估计出准确的、特别是三维(3D)的人体姿态,本身就是一个巨大的技术挑战。
为了解决这些问题,由Rojan Aslani、Tamás Karácsony等人组成的研究团队在《Biomedical Signal Processing and Control》上发表了一项研究,他们提出并比较了多种基于视频分析的癫痫发作分类方法。研究人员旨在探索一种既能有效利用预训练模型知识、又能适应小规模临床数据集的实用化路径。他们的核心思路是构建一个多步骤的处理流程:首先从原始RGB视频中自动提取患者的3D骨架序列,然后基于这些骨架数据衍生出两类特征——原始的时空骨架序列和一系列计算得到的运动量化指标(Quantification Metrics),最后分别训练不同类型的分类器来完成发作类型的识别。
本研究的关键技术方法主要包括:利用RTMDet进行人体检测,再使用ViTPose进行2D关键点估计,接着通过MotionBERT将2D关键点提升(Lift)为3D骨架。基于3D骨架,研究计算了包括运动位移(Movement Displacement, MD)、运动范围(Movement Extent, ME)、速度、加速度、加加速度(Jerk)等在内的520个量化指标。分类任务采用了两种策略:一是基于骨架序列的深度学习方法(对预训练的MotionBERT Action模型进行迁移学习),二是基于量化指标的经典机器学习方法(Random Forest和XGBoost)。研究在一个包含74名患者、198次发作视频的数据集上进行了5折交叉验证,该数据集涵盖了Automotor、Hypermotor、Complex Motor、全面性强直阵挛发作(Generalized Tonic-Clonic Seizure, GTCS)和PNES共五类发作。
研究结果
1. 人体姿态估计与运动量化
研究成功构建了一个从临床视频到3D骨架的自动化处理流程。尽管EMU环境(如遮挡、被子覆盖、夜间红外录像)带来了巨大挑战,但通过结合先进的RTMDet、ViTPose和MotionBERT模型,研究人员能够从大部分视频中提取出可用的3D骨架数据。这一步骤将原始103.65 GB的视频数据压缩至仅21 MB的骨架序列,极大地提升了后续处理的效率。基于3D骨架计算出的运动量化指标显示出了与癫痫发作类型相关的预期模式。例如,过度运动性发作(Hypermotor)在大多数运动指标(如覆盖距离、最大速度、加速度和加加速度)上的中位数值都高于其他发作类型,这与其临床表现(近端关节的大幅度运动)相符。而PNES发作的许多指标总和值较低,反映了其运动表现的间歇性特征。加加速度被再次证实是区分发作现象学的有效特征。
2. 动作识别与分类性能
研究人员设定了三个具有临床相关性的分类任务来评估不同方法的性能:五类分类(最全面且最具挑战性)、三类分类(区分易于混淆的Automotor、Hypermotor和Complex Motor)以及二元分类(Automotor vs. Hypermotor)。结果表明,基于量化指标的经典机器学习方法,特别是Random Forest,在数据有限的情况下表现出色。在五类分类任务中,Random Forest取得了最高的宏F1分数(0.84 ± 0.09)。在三类分类任务中,它也达到了0.65 ± 0.14的F1分数。而在Automotor与Hypermotor的二元分类中,基于骨架的MotionBERT Action模型表现最佳,F1分数为0.80 ± 0.18,但结果的标准差较大,表明其性能受数据分割(患者分布)的影响更显著。相比之下,XGBoost的表现不如Random Forest。分析表明,Random Forest的集成特性使其在小数据集上更不容易过拟合。
对混淆矩阵的进一步分析揭示了模型分类的难点与临床实践中的挑战相一致。例如,在五类分类中,GTCS能被最准确地区分,而PNES经常被误分类为Complex Motor发作,Automotor与Complex Motor之间也存在混淆,这恰恰反映了这些发作类型在症状学上的重叠性。
研究结论与讨论
这项研究系统地比较了基于骨架和基于运动量化两种策略在视频癫痫发作分类中的表现。其主要结论和重要意义在于:
  1. 1.
    验证了量化指标的有效性:研究证实,从3D骨架中计算出的运动量化指标能够有效捕捉不同癫痫发作类型的运动特征差异。基于这些指标的经典机器学习模型(如Random Forest)在数据量有限的情况下,可以取得优于复杂深度学习模型(如MotionBERT Action)的性能,尤其在多分类任务中。这为开发计算效率高、可解释性强的辅助诊断工具提供了有力证据。
  2. 2.
    提供了一种应对小数据挑战的实用方案:对于许多临床研究而言,大规模标注数据难以获取是常态。本研究展示的“预训练HPE模型 + 特征工程 + 经典机器学习” pipeline,为在类似数据稀缺场景下开展研究提供了一个可行的技术路线。
  3. 3.
    揭示了当前方法的局限与未来方向:研究也指出了现有方法的不足。例如,MotionBERT Action模型对输入序列长度的固定限制(约10秒),可能导致长视频中重要信息的丢失。此外,当前采用的骨架拓扑结构(H36M,17个关键点)未能包含手部、面部等对某些发作类型(如Automotor发作的口面部自动症)至关重要的细节。未来的工作可以探索视频分段分析、引入更精细的全身关键点检测、以及开发角度运动量化指标等,以进一步提升分类性能和解译性。
  4. 4.
    强调了临床应用的潜力:尽管需要一个完全独立的测试集来最终验证模型的泛化能力,但这项研究证明了基于视频的运动分析在实现患者无关的、客观的癫痫发作分类方面具有巨大潜力。这种系统有望成为神经科医生有价值的诊断支持工具,帮助减少主观判断误差,特别是在区分表现相似但治疗策略迥异的发作类型时。
总之,这项研究不仅为癫痫发作的自动视频分类贡献了新的方法比较和性能基准,更重要的是,它突出了在医疗人工智能应用中平衡模型性能、数据需求、计算效率和可解释性的重要性,为后续相关研究提供了重要的借鉴和启示。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号