编辑推荐:
为解决机器学习算法因数据不平衡导致的呼吸频率(RR)估计误差大问题,研究人员开展基于自举不平衡特征生成(BIFG)结合高斯过程(GPR)的 RR 及不确定性估计研究。结果显示,该方法 MAE 低至 0.89bpm,提升了数据不平衡场景下 RR 估计的准确性与可靠性。
呼吸频率(RR)作为心肺健康的关键指标,对老年群体尤为重要 —— 其快速变化可能预示严重疾病。然而,传统机器学习方法在处理呼吸数据时面临显著挑战:正常呼吸(12–20 bpm)、呼吸困难(≥20 bpm)和呼吸过缓(<8 bpm)的样本量差异极大,导致模型对少数类(如异常呼吸)学习不足,预测误差显著。现有基于光体积描记术(PPG)的方法虽具备无创、经济的优势,但数据不平衡问题始终制约着算法的准确性和可靠性,尤其在需要精确医学决策的场景中,传统模型的局限性亟待突破。
为攻克这一难题,韩国世宗大学(Sejong University)、江原国立大学(Kangwon National University)和光云大学(Kwangwoon University)的研究团队开展了一项创新研究。他们提出一种结合自举不平衡特征生成(BIFG)与高斯过程回归(GPR)的新方法,旨在通过人工生成特征曲线平衡数据分布,提升异常呼吸状态下的 RR 估计精度,并首次实现对估计不确定性的量化。该研究成果发表在《Scientific Reports》上,为呼吸监测技术的临床应用提供了重要突破。
研究采用两大关键技术:
- 数据预处理与特征提取:对 PPG 信号进行去噪、重采样等处理,利用自相关函数提取功率谱(PS)特征曲线,捕捉呼吸频率的频域信息。
- 自举不平衡特征生成(BIFG):通过非参数自举法对少数类(呼吸困难、呼吸过缓)的功率谱曲线进行重采样,生成大量人工特征曲线,与原始数据融合后平衡数据集分布。
- 高斯过程回归(GPR):利用 GPR 的非参数特性建模 PPG 特征与 RR 的非线性关系,同时输出置信区间(CI)量化估计不确定性。
研究结果
1. 数据不平衡问题的有效解决
通过 BIFG 生成的人工功率谱曲线显著增加了少数类样本量。以 BIDMC 数据集为例,原始异常呼吸样本经自举后,样本量从不足百例扩展至 600 例以上,使数据集分布更均衡。Kolmogorov-Smirnov 检验显示,人工特征与原始特征的分布无显著差异(p>0.05),验证了生成数据的可靠性。
2. 预测性能显著提升
在 BIDMC 和 RRSYNTH 数据集上,GPR-BIFG 模型的平均绝对误差(MAE)分别为 0.89 bpm 和 1.44 bpm,显著低于传统 GPR(1.45 bpm 和 2.19 bpm)及其他机器学习模型(如 SVM、LSTM 等)。均方根误差(RMSE)和决定系数(R2)也显示,GPR-BIFG 的预测精度和稳定性最优,R2 最高达 0.96,表明模型对 RR 的拟合能力极强。
3. 不确定性估计的可靠性
GPR-BIFG 生成的置信区间(CI)能够有效反映 RR 估计的不确定性。与传统 GPR 相比,其 CI 范围更紧凑且覆盖真实值的概率更高,尤其在异常呼吸场景中,CI 的准确性提升显著,为临床决策提供了更可靠的参考依据。
结论与意义
本研究首次将自举法应用于呼吸监测的特征生成,成功解决了数据不平衡对 RR 估计的影响。通过 GPR-BIFG 模型,不仅实现了高精度的呼吸频率预测,还通过置信区间量化了估计不确定性,这对实时监测老年群体的呼吸异常、早期预警严重疾病具有重要临床价值。此外,该方法无需依赖大量标注数据,为资源有限的医疗场景提供了可行方案。未来研究可进一步扩展至更大规模数据集(如 MIMIC-III),并探索其在心率变异性等其他生理参数估计中的应用,推动无创生理监测技术向更精准、可靠的方向发展。