基于LSTM-LIME可解释深度学习框架的肥胖预测:面向沙特人群的多分类研究与可视化系统集成
《Scientific Reports》:Obesity prediction using an explainable deep learning framework based on LSTM–LIME with integrated visualization
【字体:
大
中
小
】
时间:2025年12月22日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对肥胖这一全球性健康挑战,提出了一种基于LSTM(长短期记忆网络)与LIME(局部可解释模型无关解释)的可解释深度学习框架,用于多分类肥胖预测。研究人员利用沙特地区特异性数据集,系统评估了六种深度学习模型(LSTM、Bi-LSTM、RNN、DNN(MLP)、TabNet和Autoencoder),其中Bi-LSTM模型以96%的准确率、0.96的宏召回率和0.95的宏F1分数表现最佳。该研究创新性地开发了首个沙特文化特异性多分类肥胖数据集,并通过集成LIME解释器与交互式界面,实现了高精度预测与个性化风险因素可视化,为精准公共卫生应用提供了重要技术支持。
肥胖已成为全球性的健康危机,根据世界卫生组织数据,2022年全球有超过25亿成年人超重,其中近8.9亿人达到肥胖标准。在沙特阿拉伯,这一问题尤为严峻——近期统计显示23.1%的成年人患有肥胖症,45.1%属于超重范围。肥胖作为一种复杂的多因素疾病,会破坏代谢稳态,增加糖尿病、心血管疾病、不孕症和某些癌症的风险。沙特独特的社会和环境条件,如高温限制户外活动、汽车依赖的出行方式以及青少年高屏幕使用时间,要求分析模型能够捕捉文化背景下的复杂生活方式模式。
传统的公共卫生监测和统计建模虽然提供了有价值的流行病学见解,但难以捕捉行为、社会经济和生理决定因素的高维、非线性和交互性特征。近年来,深度学习(DL)与可解释人工智能(XAI)的结合在肥胖风险预测方面展现出巨大潜力,DL能够识别复杂的健康模式,而XAI则为临床和政策应用提供可解释性。然而,在肥胖研究中同时实现高准确性和清晰解释仍然是一个重大挑战。
先前的研究主要应用决策树(DT)、支持向量机(SVM)、极限梯度提升(XGBoost)和随机森林(RF)等经典机器学习算法进行肥胖分类。这些模型证明了可行性,但受到静态特征集、小样本量和缺乏可解释性的限制。尽管后续研究采用了更深层的混合学习框架,但仍存在三个显著的研究空白:对LSTM和BiLSTM等时序DL模型的探索有限;LIME等局部解释框架的整合不足;以及针对沙特等特定区域数据集的研究较少,这些地区的肥胖文化环境决定因素与西方人群存在显著差异。
为解决这些空白,这项发表在《Scientific Reports》上的研究提出了一种用于多分类肥胖预测的可解释DL框架,该框架将LSTM网络与LIME相结合,并集成了由API驱动的交互界面,用于实时预测和可视化。该框架是使用一个包含关键生活方式和饮食属性(快餐、软饮料、蔬菜摄入、睡眠时间、屏幕时间、吸烟和体育活动)的沙特文化特异性数据集开发的。
研究人员为开展此研究,主要应用了以下关键技术方法:研究使用了一个包含2,975条个体记录、20个变量的沙特特异性肥胖相关数据集,涉及人口统计学、行为和生活习惯因素。数据经过预处理(包括缺失值处理、标签编码、标准化缩放和Borderline-SMOTE重采样)。研究系统评估了六种深度学习架构:LSTM、Bi-LSTM、RNN、DNN(MLP)、TabNet和自编码器,所有模型均使用TensorFlow/Keras框架,以分类交叉熵损失和Adam优化器进行训练。模型性能通过准确率、F1分数、召回率等分类指标以及平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)等回归风格指标进行综合评估。最佳性能模型(LSTM)与LIME解释器集成,构建了交互式肥胖风险预测和解释界面。
Deep Learning Models Results
深度学习方法评估结果表明,Bi-LSTM(双向长短期记忆网络)模型实现了最佳整体性能,平均准确率达到95.04%±0.38%,且具有最低的误差值(MAE=0.0489,RMSE=0.2875)和强大的解释力(R2=0.9323,MAPE=3.97%)。LSTM(长短期记忆网络)架构获得了相近的结果(准确率95.11%)。这些结果说明,双向循环结构能有效捕捉沙特肥胖数据集中的时序依赖关系和复杂特征交互。RNN(循环神经网络)和MLP(多层感知器)也表现出竞争力,而自编码器表现相对较弱,表明其无监督表示学习性质泛化能力有限。统计比较(ANOVA,p<0.01)证实了模型间性能差异的显著性,Bi-LSTM的优越性具有统计意义。
混淆矩阵分析显示,Bi-LSTM和LSTM架构在所有肥胖类别中表现出最一致的分类行为。两个模型对正常体重(约94-95%正确识别)和超重(约97-98%正确识别)类别均实现了高识别率,同时在少数类别(如肥胖级别II和体重过轻)上也保持强劲性能。Bi-LSTM模型获得了96%的最高整体准确率,宏平均召回率和F1分数值分别为0.96和0.95。
训练和验证损失趋势表明,LSTM模型在前30个周期内损失迅速降低,随后在大约80个周期后平滑收敛至接近零,表明学习稳定且优化有效。相比之下,Bi-LSTM模型表现出更快、更平滑的收敛性,最终损失值更低,这表明双向架构能更有效地捕捉前向和后向的时序依赖关系。总体而言,Bi-LSTM在肥胖风险数据集内建模时序模式方面具有收敛稳定性和泛化优势。
Risk Prediction and Explanation Interface
开发的肥胖预测系统旨在提供一个集成预测与可解释性的交互界面。该框架使用LSTM模型(在比较实验中取得了最高准确率之一)作为部署主干。用户界面包含数据输入部分,用户可输入人口统计学、生活方式和饮食属性。
为增强透明度,系统集成了直接由已部署LSTM模型生成的LIME(局部可解释模型无关解释)解释。该可解释性模块突出显示影响分类结果的主要贡献特征,彩色水平条表示正负贡献。体重、身高、年龄、吸烟状况和快餐消费等特征常被识别为肥胖风险分类的主要预测因子。
通过将LSTM模型的预测能力与基于LIME的可解释性相结合,开发的系统能够生成个体化且透明的肥胖级别预测。如图5所示,正常体重案例(图5a)展示了保护性行为因素(如较高的体育活动、睡眠时间和较低的快餐消费)如何对维持健康体重产生积极贡献。相比之下,肥胖级别I案例(图5b)则强调了人口统计学和生活方式变量(包括男性性别、身高较低和油炸食品摄入增加)对较高肥胖风险产生了最强影响。这些解释反映了模型与既定临床和流行病学模式保持一致的能力,从而增强了可解释性和用户信任。总体而言,LSTM预测与LIME解释的集成使系统能够提供准确的、针对特定案例的结果和可操作的见解,从而支持公共卫生政策和个性化生活方式管理中的针对性干预措施。
本研究开发了一个用于多分类肥胖预测的可解释深度学习框架,使用的是沙特文化特异性数据集。通过系统评估六种模型(LSTM、Bi-LSTM、RNN、MLP、TabNet和自编码器),证明循环架构,特别是Bi-LSTM模型,实现了最高的预测性能(平均准确率95.04%±0.38%,95%置信区间[94.71, 95.37])。为增强可解释性和临床实用性,研究实现了一个交互式肥胖风险预测界面,将优化的LSTM模型与LIME解释相结合。在该界面内,为每个用户提供个体化分类和透明的特征级解释,创造了个性化体验。这种集成将预测建模与临床洞察联系起来,使最终用户和从业者都能理解不仅预测的风险类别,还有导致每个个体结果的具体因素。尽管该框架实现了高准确性和可解释性,但未来研究应扩展数据集以纳入多中心和多种族队列,结合生物化学和遗传预测因子,并探索混合架构以进一步提高泛化能力。总体而言,所提出的LSTM-LIME系统为个性化肥胖风险评估建立了一个可扩展且可解释的基础,并为数据驱动的精准公共卫生干预做出了实际贡献。该研究的临床和公共卫生意义重大,开发的系统可帮助医疗保健专业人员识别高风险个体,并根据具体行为模式定制干预措施。在人群层面,该框架能够监测可改变的风险因素,并支持针对最有影响力的生活方式决定因素的数据驱动健康计划。可解释的、个体化输出的纳入增强了透明度,并促进了DL模型与临床决策支持和公共卫生基础设施的整合。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号