编辑推荐:
连续血糖监测(CGM)虽在代谢健康管理中意义重大,但因成本高和使用不便限制了普及。研究人员开展了基于生活日志数据的深度学习虚拟 CGM 研究。结果显示模型预测表现良好,这有助于实现间歇性监测,推动血糖监测技术发展。
在健康管理领域,血糖监测至关重要。连续血糖监测(CGM)技术可实时测量间质葡萄糖水平,在糖尿病患者管理、疾病早期检测等方面发挥着重要作用,甚至对健康人群改善生活方式也有帮助。然而,这项技术存在明显弊端。其高昂的维护成本给用户带来经济负担,且设备需频繁更换传感器,长期贴附于皮肤还可能引发皮肤炎症等并发症,这些问题限制了其广泛应用。
为解决这些问题,来自韩国蔚山科学技术院(Ulsan National Institute of Science and Technology)和 Pillyze Inc 的研究人员 Min Hyuk Lim、Hyocheol Chae 等人开展了一项极具创新性的研究。他们提出了一种基于深度学习的框架,旨在实现独立于先前血糖测量的血糖水平推断,利用综合生活日志数据构建虚拟连续血糖监测模型。该研究成果发表在《Scientific Reports》上,为血糖监测领域带来了新的突破。
研究人员在研究过程中运用了多种关键技术方法。首先,他们收集了 171 名健康成年人的 CGM 血糖数据、智能手机应用和智能手表记录的生活日志数据。这些数据涵盖饮食摄入、身体活动指标等多方面信息。接着,基于滑动窗口技术从整体数据轨迹中提取包含血糖水平和生活日志数据的子序列。模型采用编码器 - 解码器结构,其中编码器和解码器均使用长短期记忆网络(LSTM),并结合特征和时间注意力模块、自相关模块,利用来自 RoBERTa 的嵌入对隐藏状态进行修改,以更好地处理和分析数据。在模型训练和评估阶段,使用了 L1 损失、L2 损失和余弦损失的总和作为损失函数,通过计算均方根误差(RMSE)、相关系数(Correlation)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等指标来评估模型性能。
推断血糖水平
研究人员对提出的模型进行评估,在预测当前(0 分钟)血糖水平时,MAE 为 14.93 ± 4.2,Correlation 为 0.43 ± 0.2,RMSE 为 19.49 ± 5.42,MAPE 为 12.34 ± 3.11。与无预训练、无自相关模块以及使用语言模型中食物名称嵌入作为额外特征的模型相比,该模型在推断当前血糖水平时表现更优。在未来血糖水平预测方面,利用食物名称嵌入的模型性能更佳。此外,研究人员还测试了不同条件下的模型,如包含或不包含用餐事件的所有轨迹、使用前 24 小时而非 90 分钟轨迹以及使用先前血糖水平信息等情况。
注意力机制的解释
模型集成了时间和特征注意力两个模块。在没有索引时间戳之前的血糖信息时,模型能自适应地利用先前子序列中的特征来推断当前和未来的血糖水平。食物摄入以及其他营养成分对推断血糖轨迹有显著贡献,通过注意力分数分析发现碳水化合物特征对模型输出的贡献最大。
潜在表示的分布
对编码器的隐藏状态(潜在表示)进行主成分分析(PCA)后发现,包含葡萄糖水平、代谢当量(MET)、步数、卡路里、碳水化合物等可解释特征以及时间戳三角函数的潜在表示在空间上分布不均匀。这表明通过数据驱动的方法可以区分不同的子序列,为进一步理解血糖动态变化和生活方式因素之间的关系提供了依据。
在讨论部分,研究人员深入分析了各项因素对模型的影响。预训练模型通过从所有受试者的训练轨迹中学习,显著提高了血糖预测的准确性,尤其是在相关性表现方面。自相关模块有效捕捉了血糖时间序列数据中的短期波动,而食物名称嵌入在预测餐后血糖反应方面发挥了重要作用,并且在处理新的或不常见食物时表现出良好的泛化能力。
通过特征消融研究发现,时间、食物相关特征和运动相关特征对模型性能影响显著。去除这些特征会导致相关性下降,MAE、RMSE 和 MAPE 增加。同时,研究还发现不同时间跨度下模型的准确性有所变化,一般来说,预测时间越远,误差越大,但当模型训练和评估限制在包含至少一个用餐事件的子序列时,误差会有所降低。
此外,研究人员还探讨了 CGM 在健康人群中的应用。虽然 CGM 能为健康人群提供有关日常行为对代谢健康影响的实时信息,有助于改善健康行为和体重管理,但目前缺乏标准化的解释标准,可能导致对正常生理血糖波动的误判,引发不必要的焦虑和过度医疗。而本研究中的虚拟 CGM 模型在健康人群 CGM 使用受限的情况下,可作为补充手段,节省成本。
该研究也存在一定局限性。模型仅在正常血糖成年人中训练,其在葡萄糖稳态改变人群(如 1 型和 2 型糖尿病、妊娠期糖尿病、糖耐量受损等)中的适用性有待验证。数据方面,生活日志条目的时间分辨率和一致性、自我报告饮食数据的误差、用户参与度和依从性差异等因素可能影响模型可靠性。潜在空间中缺乏明显的聚类边界和重叠的表型分布,也需要进一步研究改进。
针对这些局限性,研究人员提出了未来的研究方向。开展前瞻性研究验证虚拟 CGM 的有效性,开发结合机械葡萄糖 - 胰岛素动力学和进餐检测模型的混合模型,整合多种传感器的连续生理监测数据,考虑将糖尿病前期和糖尿病患者纳入研究对象,采用分层方法优化模型,以及引入实时校正功能等,以进一步提高模型性能和适用性。
总的来说,这项研究提出的基于深度学习的虚拟 CGM 框架具有重要意义。它在不依赖连续物理 CGM 设备的情况下,实现了准确的血糖水平推断,为解决传统 CGM 设备的经济和实际限制提供了新途径。模型在 CGM 不可用时仍能保持预测准确性,支持用户进行间歇性监测,有望推动可及性血糖监测技术的发展,在代谢健康管理领域具有广阔的应用前景。