医疗健康领域多传感器缺失数据填补的系统性综述与Impute-Paradigm范式构建
《Image and Vision Computing》:Imputing missing multi-sensor data in the healthcare domain: A systematic review
【字体:
大
中
小
】
时间:2025年10月25日
来源:Image and Vision Computing 4.2
编辑推荐:
本文针对医疗健康领域中多传感器时间序列数据普遍存在的缺失值问题,以低血糖预测为具体应用场景,开展了系统性综述。研究人员系统梳理了相关数据集、传感器、关键特征及其时序行为,总结了现有预处理流程,并重点分析了不同缺失间隙长度下的数据填补技术。基于此,研究提出了一种名为“Impute-Paradigm”的范式,建议根据特征类型和缺失间隙时长采用不同的填补策略,并通过案例研究验证了其有效性。该研究为提升多源异构医疗数据质量、优化后续机器学习模型性能提供了重要指导,具有显著的临床意义和应用价值。
在当今数字化医疗时代,持续健康监测已成为慢性病管理的核心手段。对于糖尿病患者,尤其是1型糖尿病(T1D)患者,预防低血糖( hypoglycemia)这一可能引发头晕、恶心甚至更严重症状的急性并发症至关重要。可穿戴设备(Wearables)和物联网(IoT)技术的兴起,使得通过连续血糖监测(CGM)、心电图(ECG)、心率(HR)、加速度计(ACC)等多种传感器实时收集生理数据成为可能。整合这些多源数据有望实现对低血糖的早期预测和干预,从而改善患者生活质量。
然而,理想很丰满,现实却很骨感。这些来自不同传感器的数据在整合与应用过程中面临巨大挑战,其中最为突出的问题之一便是数据缺失。设备故障、电池耗尽、环境干扰、患者佩戴不当以及数据预处理(如特征提取、重采样)等环节都可能引入缺失值。医疗数据集通常样本量有限,缺失值不仅降低了数据质量,也进一步减少了可用于训练预测模型的有效数据量,直接影响后续机器学习(ML)或深度学习(DL)模型的性能。因此,如何有效地填补(Imputation)这些缺失值,是提升低血糖预测准确性的一个关键前置步骤。尽管已有不少研究关注低血糖预测算法,但对数据预处理,特别是针对多传感器数据缺失值填补方法的系统性梳理和分析却相对缺乏。
为了填补这一研究空白,由Vaibhav Gupta、Florian Grensing、Beyza Cinar和Maria Maleshkova组成的研究团队,在《Image and Vision Computing》上发表了一篇题为《Imputing missing multi-sensor data in the healthcare domain: A systematic review》的系统性综述文章。该研究旨在深入探讨医疗健康领域,特别是低血糖预测背景下,多传感器时间序列数据缺失值的填补策略。研究团队设定了五个核心研究问题:(1)低血糖预测使用了哪些数据集和传感器?(2)用于预测的关键特征有哪些?它们随时间呈现何种行为?(3)采用了哪些预处理技术?(4)针对低血糖预测应用了哪些不同的填补技术?(5)其他医疗领域的哪些机器学习填补技术可被借鉴用于处理更长的数据缺失间隙?
为回答这些问题,研究人员在2024年5月进行了系统的文献检索,筛选出相关研究进行分析。他们首先梳理了常用于低血糖预测的临床数据集(如OhioT1DM, D1NAMO等),指出了这些数据集普遍存在的挑战:数据量有限、缺失值、异常值以及类别不平衡(低血糖事件较少)。接着,文章重点分析了用于预测的低血糖相关特征,主要是血糖(BG)值,并辅以胰岛素、膳食数据,以及从心电图(ECG)和加速度计(ACC)信号中提取的特征(如心率HR)。研究特别强调了这些特征随时间动态变化的差异性:BG值受胰岛素、运动、进食影响可能快速变化;HR值波动剧烈且原因多样;ACC信号幅度变化快但数值范围小。这种不同的时序行为暗示了对不同特征、不同长度的缺失间隙可能需要采用不同的填补策略。
基于对文献的梳理,研究者提出了一个预处理技术框架,涵盖了数据集成、时间对齐、缺失值处理、平滑、归一化、异常值检测、特征工程、降维、处理数据量不足和类别不平衡等关键步骤。在众多预处理环节中,该综述的核心贡献在于对缺失值填补技术进行了深入分析。研究发现,在低血糖预测研究中,统计填补方法占主导地位,最常用的是线性插值(Linear Interpolation, LI)(使用9次),其次是样条插值(Spline Interpolation, SI)和均值填补(各4次)。研究将这些技术根据其适用的缺失间隙长度和计算复杂度进行了分类:对于短间隙(如≤15分钟),LI、前向填充(Forward Fill, FF)等低计算复杂度方法较适用;对于中等间隙(如约1小时),SI、K近邻(KNN)、PCHIP(Piecewise Cubic Hermite Interpolating Polynomial)等中等计算复杂度方法更合适;对于长间隙(≥24小时),自回归滑动平均模型(ARMA)或机器学习方法可能更有效,但这些方法计算复杂度高,且受限于当前低血糖数据集的数据量,应用较少。文章还综述了其他医疗领域时间序列数据填补的机器学习方法(如3D-MICE, MICE-DA等),为未来处理长间隙提供了方向。
本研究主要采用系统性文献综述方法。检索了IEEE Xplore、Scopus和Google Scholar数据库中2018年后发表的文献,使用与低血糖、糖尿病、传感器、数据集、缺失值、插补、预处理、机器学习/深度学习等相关的组合搜索词。依据预先设定的纳入和排除标准(如必须描述传感器数据和插补技术)筛选研究。通过流程图展示了研究选择过程,并将最终纳入的研究分为三部分:用于低血糖预测的数据集研究、低血糖预测中的预处理/插补技术研究、其他医疗领域的时间序列插补技术研究。对纳入研究的分析侧重于数据集特征、传感器类型、特征行为、预处理流程和具体的插补方法。
研究分析了六种临床数据集(如OhioT1DM、D1NAMO)和模拟器生成的数据集。临床数据集是真实世界数据,但存在数据量小、缺失值、异常值、低血糖案例少等问题。OhioT1DM是最常用的数据集(65%)。模拟器数据质量高但缺乏真实噪声,多用于迁移学习。研究指出临床数据集是面临数据缺失挑战的主要场景。
研究指出,除BG外,HR和ACC是常用辅助特征。通过图示展示了BG、HR和ACC信号在短时间窗口内的动态变化,突出其不同的波动特性:BG在特定事件(如进食)下快速变化,但有时相对平稳;HR波动剧烈;ACC信号频繁变化但幅度小。这些特征的时序行为复杂性是选择不同插补方法的重要依据。
提出了一个包含10个步骤的预处理框架(数据集成、时间周期采样、处理缺失值、平滑技术、数据归一化、异常值检测、计算/提取特征、降维、有限数据量处理、处理不平衡类别),为系统化数据预处理提供了指导。
以ECG信号预处理为例,详细说明了从原始信号中提取HRV(Heart Rate Variability)等特征所需的复杂步骤(如滤波、R峰检测)。
通过表格分类总结了研究中使用的插补技术:表6列出了对BG值使用单一插补方法的研究;表7列出了对BG或生理学值进行插补的研究;表8列出了对BG使用多种插补方法或对不同特征使用组合插补方法的研究。发现大多数研究对不同的特征或间隙长度使用相同的插补方法。
对插补技术进行了定量分析(见图7),LI使用频率最高。根据文献中的应用,将插补技术按缺失间隙长度进行了初步归类,并讨论了各种技术的优缺点(如LI简单但不适合非线性变化,SI能处理更复杂变化但可能过度拟合)。
介绍了其他医疗领域用于时间序列的机器学习插补技术(如3D-MICE, MICE-DA, MD-MTS, SMILES, TA-DualCV),这些方法能处理更长间隙和复杂模式,但需要大量数据,目前难以直接应用于低血糖预测数据集。
将插补技术按计算复杂度分为三类:低(如LI, FF, Mean)、中(如KNN, SI, PCHIP)、高(如ARMA, ML/DL方法)。这为在实际应用中选择方法提供了另一个维度的考量。
基于上述分析,提出了核心贡献——“Impute-Paradigm”(Impute-范式)(图8)。该范式建议:首先评估待插补特征的时序行为;若数据量足够大,可考虑深度学习插补方法;对于当前常见的小数据量低血糖数据集,则应根据缺失间隙长度(Criteria 1: ≤15分钟,Criteria 2: ≈1小时,Criteria 3: ≥1天)为不同特征选择不同的插补技术。范式并未指定特定技术为最佳,而是推荐了一个技术列表,并强调需要通过“初步验证”(Primary Validation)来评估不同方法对特定数据集和预测模型的效果。
3.3.8. Impute-Paradigm的实证验证
为验证范式有效性,研究在BIG IDEAs Lab的血糖变异性与可穿戴设备数据上进行了案例研究。通过人为制造不同时长(15分钟、1小时、24小时)的缺失间隙,分别应用范式建议的代表性技术(LI, PCHIP, ARMA)进行插补,并以RMSE(Root Mean Square Error)为指标评估效果。结果显示:对于15分钟间隙,LI表现良好(RMSE=1.87),与PCHIP(RMSE=1.35)接近,但远优于ARMA(RMSE=10.02);对于1小时间隙,PCHIP表现最佳(RMSE=6.49);对于24小时间隙,ARMA表现最佳(RMSE=20.31)。该结果支持了Impute-Paradigm按间隙长度推荐不同插补方法的有效性。
本研究系统回顾了低血糖预测中多传感器缺失数据的填补方法,揭示了当前研究存在的主要挑战:多变量数据应用不广、复杂机器学习填补方法用于长间隙缺失的研究不足、针对不同特征和不同缺失间隙长度采用差异化填补策略的研究缺乏。针对这些问题,研究提出了一个预处理的通用框架和一个创新的“Impute-Paradigm”填补范式。该范式的核心价值在于强调需要依据特征的时序行为、缺失间隙的长度以及计算复杂度,为不同特征灵活选择并验证最合适的填补技术,而不是“一刀切”地使用单一方法。
这项研究的意义重大。在理论上,它系统梳理并构建了医疗多传感器数据填补的知识体系。在实践上,它为研究人员处理类似数据提供了清晰的方法论指导,有助于提升数据质量,从而为后续构建更精准的低血糖预测模型奠定坚实基础。虽然该范式是在低血糖预测的背景下提出的,但其核心思想——即根据数据特性(特征类型、间隙长度)差异化选择填补策略——完全可以推广到其他依赖生理传感器数据并面临数据缺失问题的健康医疗应用中,如帕金森病监测、高血压预测、脑电图(EEG)分析等。最后,文章指出了未来的研究方向,包括整合更多数据集以应用高级机器学习填补技术,以及进一步评估这些技术对下游预测任务性能的实际提升效果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号