编辑推荐:
为探究慢性阻塞性肺疾病(COPD)异质性,美国国立卫生研究院(NIH)的研究人员利用 SPIROMICS 队列数据开展研究,识别出 5 个与定量 CT 相关的 COPD 亚型,其稳定性得到验证,为研究 COPD 亚型提供新视角。
慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)如今可是全球健康的一大 “劲敌”,它已跻身全球三大致死病因之列,尤其在低收入和中等收入国家,“杀伤力” 巨大。一直以来,COPD 的诊断主要依赖 FEV?/FVC,疾病严重程度也依据 FEV?% 预计值来划分。然而,随着研究的深入,人们发现 COPD 具有高度的异质性,这种基于气流阻塞程度的诊断和分类方法,虽然在一定程度上推动了疾病的诊疗,但也存在不少问题,不同疾病特征和亚型之间存在显著重叠,无法精准反映其复杂的表型异质性。
与此同时,CT 成像技术的普及为 COPD 的研究带来了新契机,基于 CT 的测量逐渐成为评估 COPD 急性加重风险的可靠手段。而且,随着相关测量指标的增多,研究人员开始借助无监督算法挖掘 COPD 的潜在亚型。但无监督算法的结果在不同研究中的可重复性和稳定性却备受质疑。
为了攻克这些难题,美国国立卫生研究院(NIH)的研究人员针对 COPD 展开了一项意义非凡的研究。他们巧妙地运用主成分分析(Principal Component Analysis,PCA)和聚类分析方法,对 SPIROMICS(Subpopulations and Intermediate Markers in COPD Study)队列的临床数据进行深度剖析。最终,这项研究成果发表在了《BMC Pulmonary Medicine》期刊上。
在研究过程中,研究人员使用了多种关键技术方法。首先,他们从 NHLBI 生物样本和数据存储信息协调中心获取了 SPIROMICS 研究的公开数据集,该数据集涵盖了 2982 名 40 - 80 岁的参与者,这些参与者被分为从不吸烟者、无 COPD 的吸烟者、患有轻度或中度 COPD 的吸烟者以及患有严重 COPD 的吸烟者四个组。经过数据筛选,最终纳入 1879 名受试者进行分析。然后,研究人员将数据随机分为训练集和验证集,利用 PCA 对标准化后的个体特征、肺功能数据和 CT 定量数据进行降维处理,并通过 varimax 旋转优化主成分解释。接着,运用 k - means 聚类方法确定最佳聚类数,并通过逻辑回归和 Cox 回归分析评估各亚型与急性加重风险的关系。最后,通过计算标准化互信息(Normalized Mutual Information,NMI)进行交叉验证,检验聚类结果的稳定性。
研究结果十分丰硕。PCA 结合 varimax 旋转共识别出 8 个主成分,它们解释了所有变量 73% 的方差。其中,前 4 个主成分得到了明确解释:旋转主成分 1(Rotated Principal Component 1,RC1)代表多维气体陷闭疾病轴;RC2 代表负向肺通气功能疾病轴;RC3 代表气道壁病变疾病轴;RC4 代表气道壁厚度疾病轴。
通过 PCA 和聚类分析,研究人员成功识别出 5 个与定量 CT 相关的 COPD 亚型。
- 男性主导的低疾病影响亚型:该亚型约占 SPIROMICS 训练样本的 26%,其特点是预测的 FVC% 和 FEV?% 最高,CAT 评分最低,男性占比达 80%。在定量 CT 数据方面,该亚型具有最高的节段性气道壁面积、管腔面积和总支气管面积,同时气道壁面积百分比最低。这一亚型主要由对照组以及 GOLD 分期为 0 和 1 期的个体组成。
- 肥胖且症状负担相对较高的亚型:占训练样本的 14%,是 5 个亚型中 BMI 最高的,COPD 症状负担也相对较重(CAT 评分大于 10)。该亚型主要包含 GOLD 分期 0 期、2 期以及对照组的成员。与男性主导的低疾病影响亚型相比,其 FEV?% 预计值下降 0.09,但由于 FVC% 预计值下降 0.14,FEV?/FVC 比值反而增加 0.05。此外,该亚型的肺气肿程度在 5 个亚型中最低,肺密度直方图的偏度和峰度也最低,可能与肺纤维化存在关联。女性在该亚型中占比 67%。
- 气道壁病变亚型:占训练样本的 37%,其气道壁面积在 5 个亚型中最小,但气道壁面积百分比相对较高,意味着气道壁向管腔增加的速率超过了其减少的速率,导致壁面积百分比净增加。该亚型涵盖了 GOLD 分期 0 期至 3 期的成员,女性占比 59%。
- 肺上叶为主的肺气肿亚型:占训练样本的 12%,其显著特征为肺气肿以上叶为主,上叶的气体陷闭比下叶更严重,上叶气体陷闭面积是下叶的两倍多。该亚型的 CT 值标准差最高,可能与上叶气体陷闭为主有关。主要包含 GOLD 分期 2 期和 3 期的成员,女性占比 50%。
- 严重肺气肿亚型:占训练样本的 12%,以严重肺气肿、气流阻塞和最高的 CAT 评分为特点,BMI 在各亚型中最低,男性占主导地位。主要由 GOLD 分期 2 期至 4 期的成员组成,女性占比 32%。
研究人员对这些亚型进行验证时发现,训练集和验证集的聚类特征相似,交叉验证结果显示训练集和验证集的 NMI 中位数均为 0.66,这充分证实了聚类结果具有良好的可重复性。而且,不同亚型的急性加重风险存在显著差异,即便在调整 GOLD 分期后,各亚型与急性加重风险的关联依然显著,这表明新发现的亚型能提供独立于 GOLD 定义的 COPD 严重程度之外的急性加重风险信息。
在研究结论和讨论部分,此次研究意义重大。一方面,识别出的 5 个亚型为 COPD 的研究开辟了新方向,尤其是男性主导的低疾病影响亚型和气道壁病变亚型,此前研究对它们的描述较少。研究人员纳入了全面的临床变量,并且涵盖了无气流阻塞的受试者,这使得研究结果更具说服力。另一方面,研究发现气道壁厚度不能完全反映气道病理变化,COPD 的进展可能涉及气道壁向管腔的增厚以及气道壁的破坏。同时,研究还验证了部分先前发现的亚型,并证实疾病轴在不同研究中具有较高的可重复性。
不过,该研究也存在一定的局限性。比如,研究基于单一队列,所识别的 COPD 亚型的外部有效性还需在其他独立数据集、不同人群、地区和临床环境中进一步验证。而且,由于数据缺失,研究排除了部分信息不完整的受试者,尽管样本量仍然较大且潜在偏差较小,但这种排除可能还是会引入一些偏差。
总的来说,这项研究利用 PCA 和 k - means 聚类分析,成功识别出 5 个与定量 CT 相关的 COPD 亚型,并且验证了其稳定性,为后续研究 COPD 亚型提供了重要参考,也为解决无监督学习获得的亚型重复性问题提供了可行思路,推动了 COPD 研究的进一步发展。