
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释人工智能与临床参数的吸烟状态预测模型研究:机器学习驱动的健康风险评估新策略
【字体: 大 中 小 】 时间:2025年07月07日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对吸烟早期检测的临床需求,创新性地结合机器学习(ML)与可解释人工智能(XAI)技术,通过分析2000例临床生物标志物数据,构建了准确率达80%的随机森林预测模型。研究采用SHAP、LIME等四种XAI方法揭示血红蛋白(Hb)、γ-谷氨酰转移酶(GTP)等关键预测因子,为医疗决策提供透明化支持,填补了现有吸烟预测模型在可解释性方面的研究空白。
在全球公共卫生领域,吸烟作为可预防疾病的首要诱因,每年导致约800万人死亡。尽管吸烟与癌症、心血管疾病和COPD(慢性阻塞性肺病)的关联已明确,但传统筛查依赖患者自述,存在隐瞒率高、客观性不足等缺陷。更棘手的是,吸烟者往往面临血液/器官捐献限制、药物疗效降低等医疗约束,亟需开发非侵入性检测手段。这一背景下,印度曼尼帕尔高等教育学院的研究团队在《Scientific Reports》发表突破性研究,首次将多种可解释AI技术系统应用于吸烟预测,为临床干预提供了兼具高精度与透明度的决策工具。
研究采用Kaggle公开数据集,通过分层抽样获取2000例平衡样本(吸烟/非吸烟各1000例)。运用随机森林(RF)、CatBoost等6种机器学习算法,结合网格搜索、贝叶斯优化三种调参策略;创新性集成SHAP、LIME、QLattice和Anchor四种XAI技术解析模型决策逻辑;采用Jamovi进行统计学验证,通过t检验、卡方检验确认特征显著性差异(p<0.001)。
【数据特征分析】
通过小提琴图揭示吸烟者呈现血红蛋白(11.3±1.7 g/dL)和GTP(28.5±19.8 U/L)显著升高(p<0.001),Cohen's d效应量分别达0.91和0.46。互信息分析显示身高(0.093)、Hb(0.089)、GTP(0.082)具有最强预测力,与SHAP均值图结果高度一致。

【模型性能】
随机森林在网格搜索调优下表现最优:准确率80%、F1值0.79、AUC 0.84。混淆矩阵显示对吸烟者识别灵敏度达80%,显著优于ANN模型(74%)。QLattice发现"吸烟=GTP×身高-血红蛋白"的数学关系,揭示生物标志物间非线性交互。

【机制解释】
Anchor生成规则"GTP>0.05且Hb>0.71时吸烟概率89%"(覆盖率17%),与临床研究证实吸烟导致肝脏氧化应激(GTP升高)和代偿性红细胞增多(Hb上升)的病理机制吻合。LIME局部解释显示身高对预测贡献度达1.59,可能反映吸烟人群特定 anthropometric(人体测量学)特征。
研究开创性地实现三大突破:首次在吸烟预测中系统比较四种XAI技术,证实血红蛋白-GTP-身高三联征的核心预测价值;开发出兼顾性能(AUC>0.8)与可解释性的临床决策框架;为电子健康记录(EHR)系统集成提供标准化实施方案。局限在于未纳入动态生物标志物监测,未来可通过穿戴设备数据强化时序分析。该成果不仅适用于医疗机构,更可拓展至学校/职场筛查场景,为全球控烟行动提供AI赋能的创新解决方案。
生物通微信公众号
知名企业招聘