基于数字孪生的数据增强策略开发面向数据稀缺场景的1型糖尿病个性化深度学习血糖预测算法

《IEEE Transactions on Biomedical Engineering》:Data Augmentation Via Digital Twins to Develop Personalized Deep Learning Glucose Prediction Algorithms for Type 1 Diabetes in Poor Data Context

【字体: 时间:2025年11月22日 来源:IEEE Transactions on Biomedical Engineering 4.5

编辑推荐:

  本研究针对1型糖尿病(T1D)管理中因数据采集困难导致的深度学习模型训练不足问题,提出了一种基于数字孪生(DT-T1D)的数据增强方法。研究人员通过扩展ReplayBG平台构建个性化生理模型,生成合成CGM数据,并开发了NN、LSTM和CNN-LSTM三种深度学习预测模型。结果表明,融合合成数据训练将30分钟预测RMSE显著降低至18.71-19.13 mg/dL,仅需5天真实数据即可达到40天数据集的性能水平。该研究为数据稀缺场景下开发鲁棒性个性化血糖预测模型提供了创新解决方案。

  
在1型糖尿病管理领域,准确预测血糖变化是实现精准治疗的关键。然而,深度学习模型需要大量包含丰富生理和行为变化的数据进行训练,这对患者长期记录饮食、胰岛素注射等数据提出了极高要求。数据不完整、记录疲劳等问题常常导致实际临床场景中难以获取足够的高质量数据,制约了个性化预测模型的发展。
为解决这一瓶颈,意大利帕多瓦大学研究团队在《IEEE Transactions on Biomedical Engineering》上发表了一项创新研究,提出通过数字孪生技术生成个性化合成数据来增强深度学习模型的训练效果。该方法不仅有效缓解了数据稀缺问题,还为开发更可靠的血糖预测工具开辟了新途径。
研究团队采用的核心技术方法包括:基于开源平台ReplayBG构建个性化数字孪生模型,通过扩展其多餐场景处理能力、引入日内胰岛素敏感性变异描述和CGM误差子模型等五大改进;利用AIES-MCMC算法进行模型参数识别;通过对12名T1D患者OhioT1DM数据集中的膳食和胰岛素输入进行±50%调制和时移操作,生成1185条合成CGM轨迹;分别训练神经网络(NN)、长短期记忆网络(LSTM)和卷积长短期记忆网络(CNN-LSTM)三种深度学习架构,比较仅使用原始数据、正则化原始数据以及原始+合成数据三种训练策略的性能差异。
模型性能比较分析
通过系统比较不同训练策略下的预测精度,研究发现融合合成数据训练的模型在所有数据集规模下均表现出显著优势。当仅使用1天真实数据时,ORIG+AUG策略将LSTM模型的RMSE从54.94 mg/dL降低至26.58 mg/dL,提升幅度达51.6%。随着训练数据量增加,这种提升效果虽然逐渐收敛,但在各规模数据集上均保持统计显著性。
数据规模与模型性能关系
实验结果表明,增加训练数据量能有效提升模型性能,但存在收益递减效应。当使用40天真实数据时,模型性能趋于稳定,继续增加数据量带来的改善有限。然而,引人注目的是,采用ORIG+AUG策略时,仅需5天真实数据配合合成数据,即可达到与40天纯真实数据训练相当的预测精度,这一发现对临床实践具有重要应用价值。
合成数据质量评估
通过对比真实数据集与合成数据集的血糖变异指标,研究发现合成数据在保持平均血糖水平(160 vs 158 mg/dL)和标准差(58 vs 58 mg/dL)相近的同时,呈现出更高的变异系数(43% vs 37%)和低血糖事件发生率(9% vs 3%)。这种增强的生理多样性使模型能够学习更广泛的葡萄糖动态变化,从而提高其对真实场景的适应能力。
不同神经网络架构表现
在三种测试的深度学习架构中,LSTM网络在大多数实验条件下表现最优,在40天ORIG+AUG训练下达到18.71 mg/dL的RMSE。CNN-LSTM组合架构在部分数据规模条件下展现出竞争力,特别是在MAE指标上表现优异。传统NN网络虽然简单,但在合成数据增强下也表现出显著改善,证明了该方法对不同网络结构的普适性。
合成数据与真实数据平衡分析
通过固定总训练数据量为40天,调整真实与合成数据比例的研究发现,完全用合成数据替代真实数据会导致性能下降,但适度替换(如25-75比例)仍能保持可接受的性能水平。这表明数字孪生生成的合成数据具有高质量的信息含量,但不能完全替代真实临床数据。
研究结论强调,基于数字孪生的数据增强策略能有效解决T1D管理中的数据稀缺问题,为开发个性化血糖预测模型提供了可行路径。通过ReplayBG平台生成的合成数据不仅增加了训练集的规模和多样性,还保证了生成轨迹的生理合理性。该方法显著降低了患者数据记录负担,仅需少量真实数据即可训练出高性能预测模型,对推进个性化糖尿病管理工具的发展具有重要意义。
讨论部分指出,虽然该方法已显示出良好效果,但未来仍需进一步优化合成数据的生成策略,如通过高斯混合模型更精确地模拟个体行为模式,整合运动对葡萄糖代谢的影响等。这些改进将进一步提升数字孪生框架的可靠性和精确性,为更有效的个性化血糖控制策略奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号