编辑推荐:
代谢组学中硬聚类限制数据结构解析,本研究提出 SSMF 用于软聚类。通过模拟数据和真实代谢组数据验证,发现 4 个软聚类,性别与年龄显著影响聚类归属,且 SSMF 优于 K-means。研究为代谢表型分析提供新工具,发表于《Scientific Reports》。
代谢组学旨在通过分析生物样本中的代谢物(如氨基酸、磷脂酰胆碱等)揭示代谢通路与表型关联。然而,传统硬聚类方法(如 K-means)强制将样本归入单一类别,忽略了生物系统的复杂性和样本可能同时属于多个类别的特性,导致数据结构解析不全面。例如,在甲状腺疾病和 2 型糖尿病(T2D)的研究中,软聚类已被证明能更灵活地反映样本异质性,但代谢组学领域仍以硬聚类为主导,亟需适用于高维代谢数据的软聚类方法。
为此,爱尔兰都柏林大学(University College Dublin)的研究人员开展了关于 simplex 结构矩阵分解(SSMF)的研究。SSMF 是一种非负矩阵分解(NMF)的扩展方法,通过将数据矩阵分解为聚类原型矩阵和软隶属度矩阵,允许样本以不同权重属于多个聚类,从而更真实地刻画代谢数据的复杂结构。该研究成果发表在《Scientific Reports》上。
研究采用的关键技术方法包括:
- SSMF 算法:通过迭代优化残差平方和(RSS),交替更新聚类原型矩阵(W)和软隶属度矩阵(H),其中 H 的每行元素之和为 1,满足单位单纯形约束。
- 间隙统计量(Gap Statistic):用于确定最优聚类数,通过比较真实数据与参考分布下的 RSS 差异,选择 Gap 值最大且满足 Gap (k)≥Gap (k+1)-sk+1的 k 值。
- 自举重采样(Bootstrap Resampling):通过 M 次有放回抽样估计聚类原型的置信区间(CIs),评估参数估计的不确定性。
- 软调整兰德指数(sARI)和香农多样性指数:分别用于衡量软聚类与真实聚类的一致性,以及样本在多个聚类中的隶属程度,其中香农多样性指数通过 2E(hi)反映有效模糊聚类数。
研究结果
1. 模拟代谢组数据验证 SSMF 性能
间隙统计量建议采用 4 个聚类原型,SSMF 估计的原型与真实原型高度吻合,95% CIs 覆盖真实值。sARI 为 0.344,接近理论上限 0.382,表明软聚类结果可靠。香农多样性指数显示,估计的隶属度平均有效聚类数为 2.7,与真实值 2.4 接近,且 SSMF 的 RSS(286.7)显著低于 K-means(513.8),验证了其数据拟合优势。
2. 真实代谢组数据的软聚类分析
对包含 177 例样本(52 男 / 125 女,平均年龄 35 岁,BMI 24 kg/m2)的血浆代谢组数据(138 种代谢物,分 7 类)分析显示,间隙统计量在 k=4 时满足选择标准。SSMF 识别出 4 个软聚类:
- 聚类 1/2:以高氨基酸、生物胺、溶血磷脂酰胆碱和低磷脂酰胆碱、鞘磷脂为特征,性别和年龄影响显著,多数男性和年轻人隶属度高。
- 聚类 4:低氨基酸、生物胺、酰基肉碱、溶血磷脂酰胆碱,高比例老年人隶属。
- 聚类 3:特异性高酰基肉碱水平,与低 BMI 相关(p<0.001)。
香农多样性指数表明多数样本隶属 3 个聚类,体现软聚类的重叠特性。Dirichlet 回归显示,性别(男性更倾向聚类 2,p<0.001)和年龄(老年人倾向聚类 4,年轻人倾向聚类 2,p<0.001)是主要影响因素,而 BMI 仅与聚类 3 相关。
3. 与其他方法的比较
K-means 仅识别 2 个聚类,未捕获酰基肉碱富集的聚类 3;NMF 虽识别更多聚类,但遗漏了 SSMF 中聚类 1/2 的原型特征。SSMF 在 RSS(439.7 vs. K-means 577.1)和生物学解释性上均表现更优。
结论与讨论
SSMF 通过软聚类为代谢组数据提供了更灵活的分析框架,克服了硬聚类的局限性。研究发现代谢表型与性别、年龄的显著关联,尤其是酰基肉碱水平升高的聚类 3,其临床意义与心血管疾病、妊娠糖尿病等健康结局相关。此外,SSMF 开源工具 MetabolSSMF 的发布(R 包),为代谢组学领域提供了实用的软聚类工具。
尽管软聚类可能因重叠性增加临床解读难度,但其在揭示数据潜在异质性方面的优势显著。间隙统计量虽为主流聚类数选择方法,但实际应用中需结合研究目的和领域知识。未来研究可进一步探索 SSMF 在疾病亚型分型、生物标志物发现中的应用,为精准医学提供新视角。