从模式到预后:利用机器学习技术分析晚期心力衰竭患者的聚类特征

《Frontiers in Cardiovascular Medicine》:From patterns to prognosis: machine learning–derived clusters in advanced heart failure

【字体: 时间:2025年10月24日 来源:Frontiers in Cardiovascular Medicine 2.9

编辑推荐:

  机器学习聚类分析揭示晚期心衰患者存在预后差异明显的两个表型亚群,其中不利表型患者死亡风险增加3.84倍。

  本研究探讨了在心力衰竭(HF)晚期患者中,通过无监督机器学习技术识别出具有临床意义的亚型,并评估这些亚型与长期预后之间的关系。心力衰竭是一种复杂的临床综合征,其病因、病理生理机制、疾病进展轨迹和治疗反应存在显著的异质性。这种异质性在晚期心力衰竭患者中尤为明显,这些患者虽然在临床上面临较高的发病率和死亡率,却在大规模临床试验中代表性不足。随着全球人口老龄化和延长生命的治疗手段不断增多,晚期心力衰竭患者的数量正在上升。这些患者对医疗系统构成了重大负担,主要由于频繁的住院、病情恶化以及长期的护理需求。

传统的分类系统,如基于功能状态的纽约心脏协会(NYHA)分级、左心室射血分数(LVEF)阈值或广义的阶段划分(A到D),难以准确反映临床实践中观察到的复杂情况。近年来,机器学习(ML)的发展使得新型的患者分型策略成为可能,这种方法从单一的、以减少主义为主的模型转向了多维框架,整合了临床、影像和生物标志物数据。特别是无监督学习方法,有助于在异质性心力衰竭患者中识别出潜在的亚型——即所谓的“现象聚类”(phenoclusters)。这些数据驱动的方法不依赖于预先标记的结果,允许在没有偏见的情况下发现以往未被识别的临床模式及其预后意义。

现象聚类的临床相关性正逐渐受到重视,因为不同的亚型表现出不同的治疗反应和预后。在心力衰竭射血分数保留型(HFpEF)患者中,现象映射(phenomapping)已经识别出具有可重复性的亚型,这些亚型与合并症、结构性重塑和运动耐受性相关。然而,晚期心力衰竭尽管其病理生理机制和预后较差,却在这些研究中代表性不足。晚期心力衰竭治疗选择的复杂性,包括移植和左心室辅助装置(LVAD)的使用,凸显了需要可靠的分层模型,但目前机器学习在这一人群中的应用仍然有限。

本研究有两个主要目标:一是利用无监督机器学习技术识别晚期心力衰竭患者的亚型;二是评估这些亚型的预后意义。研究团队对524名接受全面临床、超声心动图、血流动力学和心肺运动评估的晚期心力衰竭患者进行了回顾性分析。通过使用k-means聚类算法对标准化的多维数据进行处理,识别出两个截然不同的亚型。主要的复合结局被定义为所有原因死亡、LVAD植入或心脏移植,这些定义与先前文献中的定义一致。

为了评估聚类结果与预后之间的关系,研究团队采用了Kaplan-Meier分析和Cox比例风险模型。Kaplan-Meier分析用于描述生存率,而Cox模型用于评估时间至事件的关联。研究结果表明,第一个聚类(代表患者具有相对较好的血流动力学和功能状态)与较好的预后相关,而第二个聚类则包括年龄较大、存在显著双心室功能障碍、较高的肺动脉压和较差运动能力的患者。在中位随访2.4年后,第二个聚类的患者经历了显著更高的复合结局发生率,其风险增加(风险比HR:3.84;95%置信区间CI:2.72–5.43;p < 0.001)。

本研究的结果强调了无监督机器学习在识别晚期心力衰竭患者亚型方面的潜力。这些亚型在临床特征和预后方面存在显著差异,可能有助于风险分层和个体化治疗策略的制定。然而,尽管研究结果具有一定的临床意义,但仍需注意研究的局限性。首先,尽管样本量在单中心晚期心力衰竭研究中相对较大,但仍然有限。其次,研究队列以男性为主,这种性别不平衡可能限制研究结果在女性患者中的普遍适用性。第三,研究采用回顾性和观察性设计,无法进行因果推断。第四,虽然数据集较为全面,但仅反映了一个中心的经验,这可能限制研究结果的外部有效性和普遍适用性。尽管研究团队在队列内部进行了重复的分样本验证以增强内部可重复性,但为了确认研究结果的普遍适用性,未来需要在更大的、前瞻性多中心队列中进行外部验证。第五,为了方法学上的原因,二分类临床变量(如性别、糖尿病、房颤、缺血性病因)被排除在聚类输入之外,这可能限制了分型的完整性。

研究还探讨了无监督机器学习在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。此外,机器学习还能够帮助制定个体化的治疗策略,从而优化患者的临床管理。

通过无监督机器学习技术,研究团队对晚期心力衰竭患者的临床和生理特征进行了深入分析。研究发现,两个聚类在多个方面存在显著差异。第一个聚类(Favorable Profile Cluster, FPC)患者具有相对较好的血流动力学和功能状态,适合继续监测和优化标准治疗。第二个聚类(Adverse Profile Cluster, APC)患者则表现出更严重的生理恶化和更高的疾病负担,可能需要更早考虑晚期干预措施,如正性肌力药物支持、机械循环支持或姑息治疗的规划。

在临床和人口学特征方面,APC患者年龄较大(中位数54岁,范围45–60岁),而FPC患者年龄相对较小(中位数52岁,范围43–58岁)。APC患者的BMI较低(27.0 ± 4.8 kg/m2),而FPC患者的BMI较高(28.2 ± 5.3 kg/m2)。此外,APC患者中缺血性病因的比例显著高于FPC患者(54.7% vs. 38.2%),这可能与更严重的血管疾病和心脏功能障碍有关。APC患者中还存在更高的糖尿病、房颤、植入式心脏复律除颤器(ICD)使用率,以及更高的心血管事件发生率。

在超声心动图和血流动力学方面,APC患者表现出更严重的结构性和功能异常。APC患者的LVEF显著低于FPC患者(中位数20%,范围18–24 vs. 23%,范围20–25),这表明更严重的收缩功能障碍。尽管两组的左心室舒张末期和收缩末期直径(LVEDD, LVESD)相似,但APC患者的左心房大小显著增加(4.84 ± 0.53 cm vs. 4.45 ± 0.61 cm),反映了慢性容量负荷和舒张功能障碍。APC患者中还存在更高比例的中度至重度二尖瓣反流(82.6% vs. 47.8%)和三尖瓣反流,这表明右心瓣膜受累和容量负担更为严重。右心室收缩功能也显著受损,APC患者的TAPSE(1.4 ± 0.37 cm vs. 1.8 ± 0.44 cm)和IVC直径(2.23 ± 0.43 cm vs. 1.64 ± 0.35 cm)均显著低于FPC患者,这提示APC患者右心房压力升高和右心室收缩力下降。APC患者中还存在更高的肺动脉压(中位数50 mmHg vs. 30 mmHg),这与肺动脉高压相符。

在实验室参数和生物标志物方面,APC患者表现出与疾病严重程度、多器官受累和较差营养及代谢状态相关的实验室特征。APC患者的血清尿素水平显著升高,而血清肌酐水平在两组之间相似。APC患者中存在显著升高的总胆红素(1.08 mg/dl vs. 0.58 mg/dl)、直接胆红素(0.51 mg/dl vs. 0.21 mg/dl)以及GGT(58.5 U/L vs. 28 U/L)和ALP(100 U/L vs. 87 U/L),这提示APC患者可能存在更严重的肝脏功能障碍和代谢异常。此外,APC患者的NT-proBNP水平显著升高(3,969 ng/L vs. 1,330 ng/L),这表明更严重的心肌壁张力和血流动力学负荷。

在营养状态方面,APC患者表现出显著下降。APC患者的血清白蛋白(41.2 ± 5.79 g/L vs. 44.9 ± 4.32 g/L)、总蛋白(69.4 ± 8.07 g/L vs. 72.0 ± 6.35 g/L)和高密度脂蛋白(HDL)胆固醇水平(34.8 mg/dl vs. 42 mg/dl)均显著低于FPC患者,这提示APC患者可能存在较差的营养状态和肝脏合成功能下降。此外,APC患者的血红蛋白(13.0 ± 2.09 g/dl vs. 14.4 ± 1.65 g/dl)和红细胞压积(41.2 ± 6.02% vs. 43.9 ± 4.73%)均显著低于FPC患者,这可能与较差的氧气运输能力和慢性疾病相关的贫血有关。

在心肺运动测试(CPET)方面,APC患者的运动能力显著下降,这与更严重的心力衰竭生理特征一致。APC患者的峰值氧耗(peak VO?)显著低于FPC患者(10.7 ml/kg/min vs. 16.0 ml/kg/min),这表明其心输出能力储备受损。此外,APC患者的达到代谢当量(METS)也显著降低(3.1 vs. 4.6),这提示其体力活动能力下降。呼吸效率在APC患者中也显著变差,表现为VE/VCO?斜率显著升高(49.1 vs. 33.5),这进一步支持APC患者存在心血管功能受损和外周氧气摄取能力下降。

在预后和生存分析方面,研究团队对524名晚期心力衰竭患者进行了中位随访2.4年(四分位数范围1.4–4.1年),结果显示APC患者的复合终点发生率显著高于FPC患者(50.0% vs. 15.6%),这突显了APC患者较差的预后。在Cox比例风险模型中,被分配到APC的患者发生复合终点的风险显著增加(风险比HR:3.84;95%置信区间CI:2.72–5.43;p < 0.001)。这些结果表明,无监督机器学习方法在识别晚期心力衰竭患者的亚型和预后方面具有显著的临床价值。

研究团队还探讨了无监督机器学习在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

在临床和人口学特征方面,APC患者年龄较大(中位数54岁,范围45–60岁),而FPC患者年龄相对较小(中位数52岁,范围43–58岁)。APC患者的BMI较低(27.0 ± 4.8 kg/m2),而FPC患者的BMI较高(28.2 ± 5.3 kg/m2)。此外,APC患者中缺血性病因的比例显著高于FPC患者(54.7% vs. 38.2%),这可能与更严重的血管疾病和心脏功能障碍有关。APC患者中还存在更高的糖尿病、房颤、植入式心脏复律除颤器(ICD)使用率,以及更高的心血管事件发生率。

在超声心动图和血流动力学方面,APC患者表现出更严重的结构性和功能异常。APC患者的LVEF显著低于FPC患者(中位数20%,范围18–24 vs. 23%,范围20–25),这表明更严重的收缩功能障碍。尽管两组的左心室舒张末期和收缩末期直径(LVEDD, LVESD)相似,但APC患者的左心房大小显著增加(4.84 ± 0.53 cm vs. 4.45 ± 0.61 cm),这反映了慢性容量负荷和舒张功能障碍。APC患者中还存在更高比例的中度至重度二尖瓣反流(82.6% vs. 47.8%)和三尖瓣反流,这表明右心瓣膜受累和容量负担更为严重。右心室收缩功能也显著受损,APC患者的TAPSE(1.4 ± 0.37 cm vs. 1.8 ± 0.44 cm)和IVC直径(2.23 ± 0.43 cm vs. 1.64 ± 0.35 cm)均显著低于FPC患者,这提示APC患者右心房压力升高和右心室收缩力下降。APC患者中还存在更高的肺动脉压(中位数50 mmHg vs. 30 mmHg),这与肺动脉高压相符。

在实验室参数和生物标志物方面,APC患者表现出与疾病严重程度、多器官受累和较差营养及代谢状态相关的实验室特征。APC患者的血清尿素水平显著升高,而血清肌酐水平在两组之间相似。APC患者中存在显著升高的总胆红素(1.08 mg/dl vs. 0.58 mg/dl)、直接胆红素(0.51 mg/dl vs. 0.21 mg/dl)以及GGT(58.5 U/L vs. 28 U/L)和ALP(100 U/L vs. 87 U/L),这提示APC患者可能存在更严重的肝脏功能障碍和代谢异常。此外,APC患者的NT-proBNP水平显著升高(3,969 ng/L vs. 1,330 ng/L),这表明更严重的心肌壁张力和血流动力学负荷。

在营养状态方面,APC患者表现出显著下降。APC患者的血清白蛋白(41.2 ± 5.79 g/L vs. 44.9 ± 4.32 g/L)、总蛋白(69.4 ± 8.07 g/L vs. 72.0 ± 6.35 g/L)和高密度脂蛋白(HDL)胆固醇水平(34.8 mg/dl vs. 42 mg/dl)均显著低于FPC患者,这提示APC患者可能存在较差的营养状态和肝脏合成功能下降。此外,APC患者的血红蛋白(13.0 ± 2.09 g/dl vs. 14.4 ± 1.65 g/dl)和红细胞压积(41.2 ± 6.02% vs. 43.9 ± 4.73%)均显著低于FPC患者,这可能与较差的氧气运输能力和慢性疾病相关的贫血有关。

在心肺运动测试(CPET)方面,APC患者的运动能力显著下降,这与更严重的心力衰竭生理特征一致。APC患者的峰值氧耗(peak VO?)显著低于FPC患者(10.7 ml/kg/min vs. 16.0 ml/kg/min),这表明其心输出能力储备受损。此外,APC患者的达到代谢当量(METS)也显著降低(3.1 vs. 4.6),这提示其体力活动能力下降。呼吸效率在APC患者中也显著变差,表现为VE/VCO?斜率显著升高(49.1 vs. 33.5),这进一步支持APC患者存在心血管功能受损和外周氧气摄取能力下降。

在预后和生存分析方面,研究团队对524名晚期心力衰竭患者进行了中位随访2.4年(四分位数范围1.4–4.1年),结果显示APC患者的复合终点发生率显著高于FPC患者(50.0% vs. 15.6%),这突显了APC患者较差的预后。在Cox比例风险模型中,被分配到APC的患者发生复合终点的风险显著增加(风险比HR:3.84;95%置信区间CI:2.72–5.43;p < 0.001)。这些结果表明,无监督机器学习方法在识别晚期心力衰竭患者的亚型和预后方面具有显著的临床价值。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在顺序,从而在距离矩阵中保留其排名信息。最终,研究团队考虑了108个变量,包括临床、实验室、超声心动图、血流动力学和CPET参数。在处理多重共线性后,仅保留了81个变量用于最终的聚类分析。

研究团队采用了层次聚类(Ward方法)和k-means聚类两种算法对标准化的连续数据进行分析。这些算法适用于标准化的连续数据,并已在心力衰竭现象映射研究中广泛应用。为了确定最佳聚类数量,研究团队使用了肘部方法(within-cluster sum of squares)和平均轮廓宽度(average silhouette width)作为互补方法。肘部点被视觉识别在k=2时,此时WSS的减少开始趋于平稳。同时,平均轮廓宽度在k=2时达到最高值,支持了双聚类的解决方案。尽管k=3显示出轻微的二次拐点,但其轮廓宽度较低,且生成的聚类不够稳定和临床可解释。层次聚类提供了可解释的树状图和稳定的分组,但k-means聚类显示出更稳定和可解释的聚类结果,因此最终选择了k-means聚类(k=2)作为分类方法。

为了评估所识别的聚类的稳健性,研究团队进行了内部验证,使用了1000次抽样重置和Jaccard相似性指数。作为敏感性分析,研究团队使用了Gower距离和基于中位数的分区(PAM)方法对聚类进行了重复。此外,研究团队还使用了Calinski–Harabasz(CH)和Davies–Bouldin(DB)指数对不同聚类数量(k=2–6)进行了内部验证。最终的聚类分配被附加到插补数据集中。研究团队使用卡方检验对分类变量进行组间差异分析,使用Student’s t检验或Wilcoxon秩和检验对连续变量进行分析。缩放后的变量在两个聚类之间进行了比较,使用了条形图和雷达图来展示组间差异。

研究团队还探讨了无监督机器学习方法在晚期心力衰竭中的应用,强调其在处理高维数据和发现传统统计方法未能识别的潜在亚型方面的优势。此外,无监督机器学习方法在晚期心力衰竭中的应用,有助于揭示患者的多维特征,并支持更精准的预后评估。研究结果表明,无监督机器学习在晚期心力衰竭患者中能够识别出具有临床意义的亚型,这可能为个体化治疗策略的制定提供重要依据。

研究团队还对无监督机器学习方法进行了详细描述。在聚类分析之前,研究团队使用了MissForest算法对缺失数据进行处理,这是一种非参数、迭代的插补方法,利用随机森林技术。所有连续变量在聚类分析前进行了标准化处理,以零均值和单位方差为基准。二分类变量(如合并症、性别)被排除在聚类过程之外,以防止因数据类型不兼容而对欧几里得距离计算造成干扰。有序分类变量(如二尖瓣反流分级、三尖瓣反流分级和左心室舒张功能)被转换为整数评分,以保持其内在
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号