编辑推荐:
在心血管疾病研究中,NT-proBNP 虽重要,但影响其水平的因素尚不明晰。研究人员利用美国国家健康与营养检查调查(NHANES)数据,开展机器学习研究。结果发现年龄、性别等六个因素是 NT-proBNP 水平的关键预测因子。这有助于解释其生物学机制,推动个性化医疗发展。
在心血管疾病的诊疗领域,NT 末端脑钠肽前体(NT-proBNP)是一个极为重要的指标。它不仅能辅助诊断心力衰竭,还在预测心血管和脑血管疾病风险、评估患者死亡率等方面发挥着关键作用。然而,一直以来,对于无心血管疾病人群中影响 NT-proBNP 水平的因素,科学界了解甚少。不同研究给出的结论也不尽相同,有的研究因纳入变量有限,有的因实验环境差异,导致这些结果的普适性和准确性存疑。这种不确定性使得在临床应用中,医生难以精准判断 NT-proBNP 水平变化的意义,也阻碍了个性化医疗方案的制定。因此,全面且系统地探究影响 NT-proBNP 水平的因素迫在眉睫。
为了解开这一谜团,来自浙江中医药大学附属湖州中心医院神经内科的研究人员开展了一项极具意义的研究。他们从 1999 - 2004 年美国国家健康与营养检查调查(NHANES)数据库中获取数据,运用机器学习技术,对 66 个可能与 NT-proBNP 水平相关的因素进行了深入分析。该研究成果发表在《Scientific Reports》上,为心血管疾病研究领域带来了新的曙光。
在研究过程中,研究人员主要运用了以下关键技术方法:一是数据筛选,从 NHANES 数据库中筛选出 1999 - 2004 年进行 NT-proBNP 检测的数据,并依据严格标准排除患有心血管疾病、心力衰竭等特定情况的参与者;二是构建机器学习模型,使用 Scikit-learn 库基于 Python 语言构建多层感知器(MLP)、随机森林、Light 梯度提升机(LightGBM)和极端梯度提升(XGBoost)模型,并进行超参数调优;三是模型评估,通过五折交叉验证,利用决定系数(R2)和平均绝对误差(MAE)评估模型性能;四是采用 SHapley 加性解释(SHAP)值分析模型内部机制;五是运用加权最小二乘法(WLS)回归和广义相加模型(GAM)进行补充分析和关系验证。
下面来详细看看研究结果:
- 描述性分析:经过层层筛选,研究最终纳入了 12526 名参与者。这些参与者的平均年龄为 40.69 岁,其中男性占比 50.2%,白人占比 45.5%。研究人员按照 NT-proBNP 水平的四分位数对参与者的特征进行了详细整理,为后续分析奠定了坚实基础。
- 机器学习模型选择:研究人员对随机森林、XGBoost、MLP 和 LightGBM 这四种机器学习算法进行了全面比较。经过五折交叉验证,XGBoost 模型脱颖而出,在训练数据中展现出较高的 R2(0.530),在测试数据中 MAE 最低(0.580)。这一结果表明 XGBoost 模型在预测 NT-proBNP 水平方面具有卓越性能,因此被选定用于后续更深入的分析。
- 模型可解释性:通过 SHAP 值分析,研究人员清晰地展示了 XGBoost 模型的内部工作机制。结果显示,年龄、性别、种族 / 民族、红细胞计数和收缩压是影响 NT-proBNP 水平预测的前五大重要因素。进一步分析发现,在 60 岁以下人群中,性别对 NT-proBNP 表达水平的预测作用更为显著;而 60 岁以上人群,收缩压的预测能力则更为突出。
- 评估与 NT-proBNP 变异性相关的因素:在单变量模型中,年龄与 NT-proBNP 水平的关联最为紧密,其次是收缩压和红细胞计数。多变量模型通过逐步向前选择法进行分析,最终确定年龄、性别、红细胞计数、种族 / 民族、收缩压和总蛋白水平是预测 NT-proBNP 水平的六大关键因素。此外,WLS 模型分析表明,这些因素与 NT-proBNP 水平存在显著相关性,且 GAM 模型验证了 NT-proBNP 与年龄、红细胞计数、收缩压和总蛋白之间存在非线性关系。
综合研究结论和讨论部分,这项研究具有多方面的重要意义。研究明确了影响无心血管疾病人群 NT-proBNP 水平的关键因素,这对于完善心血管疾病的诊断标准意义重大。例如,在临床诊断心力衰竭时,除了考虑年龄因素外,性别、种族、血压以及血液细胞计数等因素也应纳入考量,从而制定更精准的诊断策略。基于 NT-proBNP 作为预测标志物,研究为预测特定疾病的高危人群提供了有力依据。通过检测 NT-proBNP 水平,结合其他相关因素,能够更准确地识别心血管疾病、中风、肾脏疾病等的高危个体,以便及时采取干预措施。研究还为指导包括心力衰竭在内的各种疾病的个性化治疗指明了方向。未来,结合 NT-proBNP 水平与其他生物标志物构建多指标模型,有望为患者提供更具针对性的治疗方案。当然,该研究也存在一定的局限性,如数据的横断面性质限制了因果推断、仅评估了单一时间点的 NT-proBNP 浓度、筛选指标范围有限、部分数据依赖自我报告以及未考虑社会经济因素等。但这也为后续研究提供了方向,相信在不断的探索中,心血管疾病的诊疗将迎来新的突破。