
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于物联网与机器学习的糖尿病实时监测系统:多源数据集融合与智能分诊的创新研究
【字体: 大 中 小 】 时间:2025年09月15日 来源:SLAS Technology 3.7
编辑推荐:
本研究针对传统糖尿病监测系统特征覆盖有限、实时性不足等问题,提出了一种集成多源数据集(BVH、PIMA及模拟数据集)的IoT-ML框架。通过Kalman滤波、KNN插补和SMOTE-ENN等预处理技术提升数据质量,结合PCA和SHAP进行特征工程,使随机森林模型达到97%准确率和0.98 F1值。创新性引入WHO ETAT标准的分诊系统,结合边缘计算将延迟降低35%,为个性化糖尿病管理提供了可扩展的实时监测解决方案。
糖尿病已成为全球最严重的慢性公共卫生问题之一,尤其随着生活方式改变和人口老龄化,其患病率持续攀升。传统糖尿病管理方法主要依赖间歇性血糖检测和门诊随访,存在数据采集不连续、预警延迟等局限,难以实现实时病情评估和干预。更关键的是,现有研究多基于单一数据集(如PIMA数据集),仅包含基础人口统计学和生化指标,缺乏实时生理参数(如血氧饱和度、皮肤电导)和主观临床特征(如意识状态、皮肤颜色)的整合,导致模型临床适用性和泛化能力不足。
为解决上述问题,由Sarra Ayouni、Muhammad Hamza Khan等来自沙特阿拉伯公主努拉大学信息系统系的研究团队,在《SLAS Technology》上发表了一项创新研究,提出了一种基于物联网(IoT)和机器学习(ML)的糖尿病实时监测与管理框架。该研究通过融合多源数据集、先进预处理技术和智能分诊系统,显著提升了糖尿病管理的准确性、实时性和可扩展性。
本研究采用多项关键技术方法:通过IoT设备(如Fitbit Sense、Shimmer3 GSR+传感器和FreeStyle Libre 2血糖仪)采集实时生理数据;整合BVH医院临床数据集、PIMA数据集和模拟数据集以增强数据多样性;使用Kalman滤波进行噪声抑制、KNN插补处理缺失值、SMOTE-ENN算法解决类别不平衡;采用PCA降维和SHAP值分析进行特征筛选;基于随机森林(RF)、支持向量机(SVM)等模型进行训练与优化;结合边缘计算(Raspberry Pi和Intel NUC)和云计算(AWS IoT Core和S3)实现低延迟实时分诊。
研究结果方面:
数据预处理与特征工程效果
通过系统化预处理,BVH数据集的缺失值插补完成度提升25%,异常值剔除效果提高20%,类别平衡优化达30%。集成数据集表现最优,特征提取和新特征生成分别带来15%的性能提升。SHAP分析识别出胰岛素剂量模式、血氧饱和度、皮肤颜色等成为关键预测特征。
模型性能对比
集成数据集训练的模型达到97%准确率和0.98 F1值,显著优于仅使用PIMA(85%)或模拟数据集(88%)的模型。随机森林和梯度提升机(GBM)表现稳定,神经网络(NN)在AUC-ROC(0.99)和RMSE(0.12)指标上最优。
实时分诊与系统延迟
依据WHO ETAT指南开发的四色分诊系统(绿色健康、黄色患病、红色危重、黑色死亡),结合边缘处理使系统延迟降低35%,支持实时病情分类与干预。
与基线研究的比较
相比以往研究(如文献[8]和[14]的83%准确率),本研究准确率提升10个百分点,AUC-ROC提高0.08,且在实时处理能力、特征多样性和临床可解释性方面均有显著改进。
研究结论强调,该框架通过多源数据融合、高级预处理和IoT-云架构,解决了传统糖尿病监测中的特征受限、延迟高和泛化能力弱等问题。其集成特征工程和实时分诊机制不仅提升了模型性能(Recall提升25%,F1值提高20%),也为个性化、实时化的慢性病管理提供了新思路。未来研究方向可扩展至多模态数据融合、更多慢性病标记物的整合以及更大规模临床验证。
该系统的成功实施标志着IoT-ML在智慧医疗中的重要作用,尤其适用于资源有限但需高效响应的医疗环境。
生物通微信公众号
知名企业招聘