编辑推荐:
本研究利用基于核磁共振(NMR)代谢组学的流形拟合框架,分析英国生物样本库中 212,853 名参与者的 251 种代谢生物标志物,将其分为 7 类代谢模块,揭示与疾病风险相关的低维结构,为个性化健康干预和预防医学提供新方向。
研究背景与方法
基于核磁共振(NMR)的代谢生物标志物可全面反映人体代谢,但从高维数据中提取有意义的模式颇具挑战。本研究提出基于流形拟合的框架,分析英国生物样本库(UK Biobank)中 212,853 名参与者的 251 种 NMR 代谢生物标志物。首先通过无监督聚类将生物标志物分为 7 个代谢类别(C1-C7),每个类别对应不同的代谢模块,如 C1 包含氨基酸、糖代谢和三羧酸(TCA)循环相关代谢物,反映基础能量代谢;C6 和 C2-C5、C7 则富集脂蛋白相关代谢物,涉及复杂脂质调控。随后对每个类别进行流形拟合,揭示其潜在的低维结构(M1-M7),并通过统一流形近似与投影(UMAP)进行降维和可视化。
研究结果
代谢流形的特征
流形拟合后,M1、M2、M5 的二维 UMAP 投影显示出明显的拓扑不连续性,可分为两个离散亚组。例如,M1 的大亚组(n=45,823)围绕小亚组(n=4,177)形成流动模式,小亚组呈蛇形结构;M2 的两个亚组(n=35,738 和 n=14,262)沿曲线分布;M5 的大亚组(n=47,828)呈圆形,小亚组(n=2,172)为内部紧凑结构。这些亚组在年龄、BMI、血压、C 反应蛋白(CRP)等基线指标上存在显著差异,且与社会经济地位(SES)相关。如 M1 亚组间 BMI 差异为 26.64 vs. 28.15 kg/m2,CRP 为 1.28 vs. 1.63 mg/L;M5 的年龄差距达 3 岁(58 vs. 61 岁)。
与疾病的关联
Cox 比例风险模型显示,M1、M2、M5 的高风险亚组与多种疾病显著相关。M1 主要与严重代谢失调及其并发症相关,如糖尿病神经病变(HR=28.87)、动脉疾病(HR=25.56);M2 更关注心血管和自身免疫性疾病,如心肌梗死(HR=8.55)、关节病(HR=10.05);M5 则覆盖代谢综合征的多系统并发症。三个流形均与 1 型和 2 型糖尿病及其微血管并发症(如视网膜病变、肾病)密切相关,HR 范围为 3.24 至 18.93。尽管高风险亚组仅占总人口的 4.3%-28.5%,但对严重疾病的召回率高达 60%-80%,显示出其在识别高危人群中的有效性。
生活方式与疾病风险
对高风险亚组的生活方式分析表明,不健康的睡眠模式、缺乏体力活动和吸烟均显著增加疾病风险。例如,睡眠不健康者的糖尿病发病率为 14.48%,高于健康睡眠者的 10.77%;吸烟者的慢性阻塞性肺疾病(COPD)发病率是不吸烟者的 4 倍以上(9.01% vs. 2.03%)。体力活动不足与糖尿病(14.09% vs. 8.90%)和缺血性心脏病(11.53% vs. 9.72%)的高发病率相关,提示生活方式干预对代谢脆弱人群的重要性。
讨论与意义
本研究首次将流形拟合应用于大规模代谢组数据,通过模块化分析揭示了代谢异质性的低维结构,为人群分层提供了新方法。流形拟合直接在原始特征空间中操作,保留了代谢信息的完整性,克服了传统降维方法的线性假设局限。研究发现的代谢亚组与疾病风险的强相关性,为个性化预防策略提供了依据,如 M1 亚组需重点监测神经和血管并发症,M2 亚组应加强心血管保护和自身免疫监测。未来研究可结合基因组学和纵向数据,进一步探索代谢流形的遗传基础和动态变化,推动早期预警和精准干预的发展。该框架为理解代谢 - 疾病关联提供了几何视角,有望革新预防医学和精准医疗。