基于临床健康记录的线性和非线性模型分类吸烟状态

《ANALYTICAL AND BIOANALYTICAL CHEMISTRY》:Classifying smoking status using linear and non-linear models based on clinical health records

【字体: 时间:2026年06月11日 来源:ANALYTICAL AND BIOANALYTICAL CHEMISTRY 3.8

编辑推荐:

  常规临床化学数据在医疗环境中广泛收集,然而其用于多元分析进行生活方式表征的潜力仍未得到充分探索。利用这些常规可用的测量可提供一种成本有效的策略,在人群水平上识别与生活方式相关的生化模式。在本研究中,研究人员评估了一系列线性和非线性多元分类方法,使用23项常规临

  
常规临床化学数据在医疗环境中广泛收集,然而其用于多元分析进行生活方式表征的潜力仍未得到充分探索。利用这些常规可用的测量可提供一种成本有效的策略,在人群水平上识别与生活方式相关的生化模式。在本研究中,研究人员评估了一系列线性和非线性多元分类方法,使用23项常规临床化学测量区分吸烟者和非吸烟者。线性方法包括传统的偏最小二乘判别分析(partial least squares discriminant analysis, PLS-DA)、带bootstrap重采样的PLS-DA以及逻辑回归(logistic regression, LR),而非线性模型包括支持向量机(support vector machine, SVM)和随机森林(random forest, RF)。结果揭示了线性和非线性分类策略之间的差异。随机森林在评估条件下对该数据集表现出相对更好的分类性能,表明其能够捕获生物数据中的复杂关系。变量重要性分析突出了胆固醇比值(cholesterol ratio)、总蛋白(total protein)、钾(potassium)和乳酸脱氢酶(lactate dehydrogenase, LDH)作为类别区分的相关贡献者,提示吸烟者和非吸烟者之间存在系统性代谢和生理差异。总体而言,研究结果表明,常规可用的临床化学参数与适当的多元分析相结合,可有效捕获吸烟相关的生化改变。该研究通过证明标准实验室测量可支持生活方式分层,为临床化学计量学(clinical chemometrics)和数据驱动的医疗保健领域做出了贡献,在更详细的代谢组学(metabolomics)调查之前提供了一种实用且可及的补充筛查策略。
**研究背景与问题**
大规模代谢表型研究“HUSERMET”(人类血清代谢组项目)于2005年启动,收集了英国大曼彻斯特斯托克波特地区约4000名名义健康个体(采样时无已知疾病)的血清样本,并同步采集了常规临床化学数据。前期基于质谱的代谢组学分析结合多元分析(如支持向量机、随机森林、偏最小二乘判别分析)成功预测了性别、年龄和身体质量指数(BMI),准确率达87%–92%。随后,研究人员将同样算法应用于临床化学数据,同样实现了对年龄、BMI和性别的准确表征,且结果与代谢组学高度一致,提示临床化学数据结合多元分析具有疾病分层等应用价值。基于上述观察,考虑到吸烟是肺癌和心血管疾病的主要风险因素,且HUSERMET原始研究已发现吸烟与色氨酸等代谢变化相关,研究人员拟探究是否可用常规临床数据识别吸烟相关的生理效应,从而为生活方式分层提供经济有效的策略。

**研究内容与结论**
本研究采用HUSERMET数据集中的188个样本(94名自报吸烟者,94名经Kennard–Stone算法平衡的非吸烟者),基于23项常规临床化学测量,系统比较了线性方法(传统PLS-DA、带bootstrap重采样的PLS-DA、逻辑回归)和非线性方法(支持向量机、随机森林)对吸烟状态的分类能力。结果表明,非线性分类器(尤其是随机森林)总体上优于线性方法:随机森林在外部测试集上准确率为80.4%,马修斯相关系数(MCC)为0.612,且内部OOB验证与外部测试性能差异较小,显示较好的稳定性和泛化能力;支持向量机训练性能高但存在过拟合迹象。线性方法表现有限,PLS-DA测试集准确率64.3%,逻辑回归66.1%。变量重要性分析揭示,胆固醇比值、γ-谷氨酰转移酶(GGT)、磷酸盐和乳酸脱氢酶(LDH)在随机森林中具有较高选择频率;PLS-DA回归系数显示收缩压、甘油三酯、胆固醇比值、GGT、碱性磷酸酶、钾、钙与吸烟者正相关,而总蛋白、胆红素、LDH与非吸烟者关联更强,这与此前报道的吸烟相关血脂异常、氧化应激、肝功能障碍等生物学变化一致。该研究发表在《ANALYTICAL AND BIOANALYTICAL CHEMISTRY》。重要意义在于:证明常规临床化学数据经多元分析可捕获吸烟相关的生化改变,为生活方式的筛查提供了一种可扩展、低成本的方法,并可作为代谢组学分析的初步补充。

**主要关键技术方法**
样本来源于HUSERMET项目(英国斯托克波特地区,约4000名健康个体),最终188个样本(94吸烟者/94非吸烟者)通过Kennard–Stone算法平衡。主要方法包括:偏最小二乘判别分析(PLS-DA,含bootstrap重采样)、逻辑回归(LR)、随机森林(RF,含超参数优化)、支持向量机(SVM)与径向基函数核。模型评估指标包括灵敏度、特异性、准确率、F1分数、平衡准确率、MCC。变量重要性通过RF变量选择频率和PLS-DA回归系数评估。

**研究结果**
- **线性方法**:PLS-DA在测试集上灵敏度75.0%、特异性53.6%、准确率64.3%,存在一定过拟合(训练集准确率81.1%)。带bootstrap重采样的PLS-DA正确分类率为69.3%(p=0.030)。逻辑回归测试集灵敏度60.7%、特异性71.4%、准确率66.1%,提示线性模型难以捕获生物数据中的复杂非线性关系。
- **非线性方法**:随机森林在OOB内部验证中准确率85.6%、MCC=0.712,外部测试集准确率80.4%、MCC=0.612,性能相对稳健。变量频率分析显示所有23个变量均超过最小阈值,其中胆固醇/HDL比值(CHOL/HDLC)、GGT、磷酸盐、LDH选择频率最高。支持向量机训练准确率达100%,测试集准确率有所下降,支持向量数量较多(约58%),存在复杂决策边界及轻微过拟合。
- **预测性临床标记识别**:PLS-DA回归系数表明,收缩压、甘油三酯、CHOL/HDLC比值、GGT、ALP、钾、钙与吸烟者正相关;总蛋白、胆红素、LDH与非吸烟者关联更强。箱线图分析显示总蛋白、钾、甘油三酯、HDL、CHOL/HDLC、血尿素氮、ALT、AST、LDH在两组间有显著差异(p<0.05)。研究强调,多元分析可揭示单变量分析未能捕获的复杂协方差与冗余关系,且非线性方法(如随机森林、SVM)更适合处理非正态分布的临床数据。

**讨论与结论**
讨论部分指出,非线性模型(尤其随机森林)相比线性方法在捕获吸烟相关生化模式上更具优势,但模型性能受优化策略、验证方法和数据集划分影响,解释需谨慎。所识别变量(脂质调节、心血管指标、肝脏酶、氧化应激相关)与文献报道一致,支持分类的可解释性。从化学计量学角度,研究强调了模型复杂度需与数据结构和分类目标匹配。
结论翻译:本研究提供了线性和非线性分类方法用于区分吸烟者和非吸烟者的系统化学计量学比较。结果表明,线性分类器(包括PLS-DA和逻辑回归)在该数据集和评估条件下表现有限。相反,非线性方法随机森林在评估条件下对该数据集表现出相对更好的分类性能,表明其能够捕获这些生物数据中的复杂关系。虽然SVM模型未显著优于线性方法,但其性能和复杂决策边界也提示生物数据中存在非线性关系。此外,模型识别的变量,特别是与脂质调节、心血管状态、肝脏代谢和氧化应激相关的变量,与此前描述吸烟相关代谢和生理改变的报道在生物学上一致,支持了观察到的分类的可解释性。从化学计量学角度,这项工作强调了将模型复杂度与数据结构和分类目标对齐的重要性。更广泛地说,研究结果表明,常规可用的临床化学测量(通常被视为单独低信息量)在多元分析时可提供有意义的区分信息。该方法为生活方式和暴露组相关筛查提供了一种可扩展且经济有效的策略,并可能作为靶向代谢组学分析之前有价值的初步步骤。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号