基于机器学习探索血液炎症因子与高密度脂蛋白胆固醇的性别特异性关联
《Journal of Health, Population and Nutrition》:Investigating the relationship between blood factors and HDL-C levels in the bloodstream using machine learning methods
【字体:
大
中
小
】
时间:2025年10月08日
来源:Journal of Health, Population and Nutrition 2.4
编辑推荐:
本研究针对传统统计方法难以解析血液指标与HDL-C复杂关系的局限,采用LR、DT、RF、KNN、XGB和NN六种机器学习算法,对9704名伊朗人群进行横断面分析。结果揭示NHR(中性粒细胞/高密度脂蛋白比值)和LHR(淋巴细胞/高密度脂蛋白比值)分别是男女性最显著的HDL-C预测因子,SHAP分析进一步验证LYM、NEUT、WBC等炎症指标的关键作用,为心血管疾病防治提供新型生物标志物。
当我们谈论"好胆固醇"时,高密度脂蛋白胆固醇(HDL-C)长期以来被视为心血管系统的守护者。然而近年研究发现,HDL-C的功能远非传统认知般简单——它不仅是脂质运输的载体,更积极参与炎症调节和代谢通路,其水平异常与心血管疾病、代谢综合征等重大健康问题密切相关。尤其令人困惑的是,不同性别、不同人群的HDL-C水平存在显著差异,例如全球男性平均值为42 mg/dL,女性则高达46-50 mg/dL,而伊朗人群的调查显示低HDL-C患病率男性为57.4%、女性达73.8%,这种差异背后的机制亟待阐明。
传统研究面临三大瓶颈:首先,线性统计方法难以捕捉血液指标与HDL-C之间的非线性复杂关系;其次,横断面设计无法确定因果关系;最后,常规分析易忽略性别特异性因素。这些问题导致对HDL-C调控机制的理解始终存在空白。正是为了突破这些限制,Ghiasi Hafezi等研究人员在《Journal of Health, Population and Nutrition》上发表了这项创新研究,他们引入机器学习技术,试图解密血液炎症因子与HDL-C之间的隐秘对话。
研究团队采用多算法机器学习框架,包括逻辑回归(LR)、决策树(DT)、随机森林(RF)、K近邻(KNN)、XGBoost(XGB)和神经网络(NN)。所有模型均经过训练集(75%)和测试集(25)的严格验证,并采用SHAP(SHapley Additive exPlanations)值进行特征重要性分析。研究样本来自MASHAD(Mashhad Stroke and Heart Atherosclerotic Disorder)队列的9704名伊朗参与者,其中男性3885人,女性5819人,所有血液样本均经过标准化采集和处理。
| 变量 | 总体N=9704 | 男性N=3885 | P值 | 女性N=5819 | P值 |
| WBC(×109/L) | 6.09±1.57 | 6.09±1.73 | 6.34±1.62 | <0.001 | 5.81±1.47 | 6.05±1.49 | <0.001 |
| LHR | 0.05(0.04,0.06) | 0.04(0.03,0.05) | 0.06(0.05,0.08) | <0.001 | 0.04(0.03,0.04) | 0.05(0.04,0.06) | <0.001 |
数据显示女性低HDL-C患病率显著高于男性(73.8% vs 57.4%),且WBC、LHR、NHR等炎症指标在低HDL-C组均显著升高。
逻辑回归显示性别是最强预测因子(OR=7.436),女性HDL-C风险为男性7.4倍。LHR每增加1单位,HDL-C异常风险增加3.77倍(95%CI:3.513-4.050),NHR增加2.81倍(95%CI:2.659-2.962)。模型准确率达97-100%,所有变量均显著(P<0.05)。
男性中NHR是首要分裂节点,当NHR>0.139且WBC≤8.2时,100%参与者存在低HDL-C风险。女性则以LHR为根节点,LHR>0.075且NHR>0.078时97.8%为低HDL-C。DT生成的25条分类规则为临床风险分层提供直观工具。
LR模型综合表现最优,AUC-ROC达0.99,准确率99%。XGBoost在特征交互捕捉方面表现突出,但LR在可解释性和稳定性上更胜一筹。混淆矩阵显示LR的假阳性率最低(男性特异性87-89%,女性达95.5%)。
SHAP蜂群图揭示NHR(男性63.703)和LHR(女性69.339)是决定性因子。高水平NHR(红色点)显著推高HDL-C异常风险,而WBC、NEUT、LYM等炎症指标呈现剂量效应关系,证实炎症-脂质代谢的紧密关联。
讨论部分指出,机器学习模型一致识别出新型炎症-脂质比值(PHR、NHR、LHR、SII)与HDL-C的强关联,这些比值作为低度炎症的替代标志物,为理解心血管疾病病理生理提供新视角。性别特异性模式的发现(男性以中性粒细胞相关指标主导,女性以淋巴细胞相关指标为主)提示激素或免疫调节差异可能影响脂质代谢。尽管横断面设计限制因果推断,但多模型交叉验证和SHAP解释框架极大增强结果可靠性。该研究建立的血液参数-机器学习预测体系,为低成本、大规模心血管风险筛查开辟新途径,未来可通过干预这些血液指标来调节HDL-C功能,实现精准预防。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号