编辑推荐:
在疾病异质性研究中,为解决现有特征选择方法难以揭示新亚型的问题,研究人员开展 “Preserving Heterogeneity(PHet)” 方法研究。结果显示,该方法能有效识别疾病亚型,且性能优于传统方法。这为疾病机制研究和个性化治疗提供了新途径。
在生命科学领域,疾病的复杂性一直是科研人员面临的重大挑战。随着生物医学研究的深入,人们逐渐认识到疾病并非单一的实体,而是包含多种不同的亚型。这些亚型在疾病的发生、发展和对治疗的反应上存在显著差异。以癌症为例,不同亚型的肿瘤细胞可能具有不同的基因表达模式、代谢特征和对药物的敏感性。如果不能准确识别这些亚型,就可能导致治疗方案的不准确,影响患者的治疗效果。此外,在神经退行性疾病、心血管疾病等领域,疾病的异质性同样给诊断和治疗带来了巨大困难。传统的特征选择方法在面对高维的组学数据时,往往难以准确捕捉疾病的异质性,也无法有效发现新的疾病亚型。因此,开发一种能够准确识别疾病亚型的方法迫在眉睫。
为了解决这些问题,来自波士顿儿童医院血管生物学项目、哈佛医学院外科的研究人员 Abdur Rahman M. A. Basher、Caleb Hallinan 和 Kwonmoo Lee 开展了一项重要研究。他们提出了一种名为 Preserving Heterogeneity(PHet)的统计方法,该方法通过迭代子采样和四分位数间距的差异分析,结合 Fisher 方法,能够识别出一小部分增强亚型聚类质量的特征。相关研究成果发表在《Nature Communications》上。
研究人员在开展研究时,运用了多种关键技术方法。首先是数据预处理,对组学数据进行筛选,保留表达量在 1% 以上样本和特征的非零数据,并进行对数转换。然后采用深度度量学习(Deep Metric Learning,DML),利用 UMAP 或 PCA 降维、k-means 聚类构建三元组,通过三元组损失学习特征嵌入。此外,还运用了多种聚类算法(如 k-means、谱聚类)和评估指标(如 F1、调整兰德指数 ARI 等)对算法性能进行评估 。数据来源包括多个公开的单细胞转录组和微阵列基因表达数据集。
研究结果如下:
- 识别组学数据中的 HD 特征:通过深度度量学习,研究人员发现了一种新的特征 —— 异质性保留判别(HD)特征,它结合了差异表达(DE)和差异可变(DV)的特性。在 Patel 数据集的分析中,HD 特征在聚类性能上表现出色,其调整兰德指数(ARI)达到 82.67%,V-measure 为 79.36%,优于 DE、HV 等其他特征,这表明 HD 特征在捕捉样本异质性方面具有独特优势。
- PHet 方法概述:PHet 方法主要包括迭代子采样、Fisher 联合概率检验、增强特征判别力、特征统计和阈值设定、特征显著性分析以及下游分析六个步骤。通过对多个数据集的测试,确定了其默认超参数,α 设为 0.01,w 为 (0.4, 0.3, 0.2, 0.1),在这种设置下,平均 ARI 得分可达 61.02%,且平均保留 395.1 个特征,在聚类效果和特征数量之间达到了较好的平衡。
- 评估 PHet 在识别单细胞和患者亚型中的性能:研究人员将 PHet 与多种现有方法进行对比,结果显示,PHet 在识别亚型方面表现优异,平均 ARI 得分超过 65.72%,F1 得分具有竞争力,且选择的特征数量较少(平均少于 300 个)。在单细胞转录组数据集分析中,PHet 在六个数据集中均表现出较高的 ARI 和 F1 值,优于其他方法;在微阵列基因表达数据集分析中,尽管所有算法性能普遍较低,但 PHet 仍能在选择较少特征的同时,获得超过 60% 的平均 ARI 得分。
- PHet 组件的消融研究:对 PHet 的组件进行消融研究发现,同时包含 Fisher 得分、ΔIQR 绝对值和特征判别力这三个主要组件时,PHet 在微阵列和单细胞转录组数据集上的平均 ARI 得分分别超过 60% 和 75%,表现最佳,这突出了这些组件在亚型检测中的重要性。此外,迭代子采样组件对聚类结果也至关重要,去除该组件会导致性能下降。
- 评估 PHet 在模拟数据上的判别性能:在模拟数据实验中,PHet 和 PHet (ΔDispersion) 在检测重要特征方面表现稳健,保留的信息特征较少。研究结果表明,IQR 统计量在捕捉 DE 特征方面比离散度更有效,进一步证明了 PHet 方法的有效性。
- 分析 PHet 识别低信号标记的能力:在识别低信号标记的实验中,PHet 展现出了一定的竞争力,能够在其前 20 个特征中识别出 10 个真正的生物标志物,而一些传统的离散度特征选择和部分 DE 及异常值检测算法则表现较差。
- PHet 揭示气道上皮细胞的分化谱系:利用两个呼吸道气道上皮的单细胞 RNA 测序数据集,研究人员发现 PHet 能够揭示小鼠和人类气道上皮细胞的不同分化轨迹。例如,在人类支气管上皮细胞(HBECs)数据集中,PHet 显示出两种不同的基底到管腔分化轨迹,并且与特定供体相关;在小鼠气管上皮细胞(MTECs)数据集中,PHet 也识别出两种可区分的细胞轨迹,且这些轨迹与细胞的再生功能相关。
- PHet 有效识别 MTECs 数据集中基底细胞的亚群:在 MTECs 数据集的研究中,PHet 基于其特征识别出四个不同的基底细胞簇,获得了最高的轮廓系数(47%)。这些基底细胞簇具有不同的基因表达谱和生物学功能,表明 PHet 能够准确反映细胞分化的发育轨迹,而传统的预注释标记和基于离散度的 HV 特征在识别基底细胞亚群方面存在不足。
研究结论和讨论部分指出,疾病特异性亚型的发现对于理解疾病机制、开发个性化治疗方案至关重要。PHet 方法克服了现有方法的局限性,能够在保留样本异质性的同时有效识别疾病亚型。该方法不仅在单细胞转录组和微阵列基因表达数据上表现出色,还能应用于多种条件和不同组学测量。然而,该方法也存在一定的局限性,例如需要对数据进行预处理以去除批次效应,且在评估算法性能时依赖于 LIMMA 选择的特征,这可能引入不确定性。尽管如此,PHet 方法为疾病亚型的研究提供了新的思路和方法,有助于推动生命科学和健康医学领域的发展,为未来的疾病诊断和治疗提供更有力的支持。