基于配对患者-配偶样本和机器学习共识策略的帕金森病尿液代谢标志物初步筛选:一项探索性研究

《Frontiers in Neurology》:Discovery of a preliminary urinary metabolite panel for Parkinson’s disease: a pilot study using paired patient-spouse samples and machine learning consensus

【字体: 时间:2026年06月09日 来源:Frontiers in Neurology 2.8

编辑推荐:

  帕金森病(PD)尚缺乏可靠的非侵入性诊断生物标志物。尿液作为生物标志物发现的重要生物流体具有巨大潜力,但共同环境与生活方式的深远影响构成主要混杂因素。为严谨应对这一问题,研究人员设计了一项采用独特配对队列的探索性研究:将PD患者与其健康配偶进行配对。研究人员对

  
帕金森病(PD)尚缺乏可靠的非侵入性诊断生物标志物。尿液作为生物标志物发现的重要生物流体具有巨大潜力,但共同环境与生活方式的深远影响构成主要混杂因素。为严谨应对这一问题,研究人员设计了一项采用独特配对队列的探索性研究:将PD患者与其健康配偶进行配对。研究人员对15对严格匹配的受试者尿液样本进行了非靶向液相色谱-质谱联用(LC–MS)代谢组学分析。采用变量重要性投影(VIP)>1.0且p<0.05的标准识别差异特征,并应用多模型共识策略[随机森林(RF)、支持向量机(SVM)、偏最小二乘判别分析(PLS-DA)]从2,640个注释代谢物中筛选稳健候选标志物,随后进行药理学相关性和共线性过滤。研究确定了一个初步的五代谢物组合[氰尿酸(Cyanuric acid)、苯乙腈(Benzeneacetonitrile)、3-甲酰水杨酸(3-Formylsalicylic Acid)、脱氧腺苷二磷酸(dADP)和ent-cassa-12,15-二烯-2β-醇(ent-cassa-12,15-dien-2beta-ol)]。尽管该特殊队列的样本量固有较小,该组合显示出有前景的内部区分性能[受试者工作特征曲线下面积(AUC)>0.95]。研究人员强调这些结果属于探索性。该探索性研究的主要贡献并非提供一个经过验证的诊断工具,而是展示了一种经过严格控制的研究设计以分离PD特异性代谢特征,并提出了特定的候选生物标志物。该工作建立了关键的概念验证,并为未来在大规模独立队列中进行必要的验证研究确定了优先靶点。
帕金森病(PD)是全球第二常见的神经退行性疾病,约影响60岁以上人口的1%,其早期诊断仍是重大临床挑战。目前迫切需要可靠的非侵入性生物标志物辅助诊断过程。非靶向代谢组学技术能够实现代谢物的无偏分析,为发现疾病-specific改变提供了广阔前景。尿液因其非侵入性采集方式和丰富的代谢内容,成为生物标志物研究的理想生物流体。然而,在PD等慢性疾病的尿液代谢组学研究中,终身环境与生活方式因素的显著混杂效应可能掩盖真正的疾病特异性信号,这是该领域面临的主要障碍。

为应对这一根本挑战,研究人员设计了本项探索性研究,采用独特且严谨的方法:将PD患者与其健康配偶作为匹配对照进行联合分析。这种患者-配偶配对设计对于控制共同环境暴露、饮食习惯和社会经济因素具有特殊价值,因为这些因素在数十年婚姻生活中高度共享。然而,构建此类队列固有困难——符合"一方患PD、另一方为完全健康对照"条件的老年夫妇较为稀缺,这不可避免地限制了可获得样本量。研究人员认为,对于旨在分离最小混杂的稳定代谢特征的探索性研究而言,这种样本量较小但控制极为严格的权衡是合理的。

在此框架下,研究人员采用非靶向LC–MS代谢组学技术,并应用多模型机器学习共识策略(整合RF、SVM和PLS-DA),从这一独特队列中优先筛选稳健的候选生物标志物。该探索性研究的主要目标并非界定经过验证的诊断工具,而是利用这种严格设计作为发现平台,识别值得在未来大规模验证研究中优先考虑的初步尿液代谢候选物集合。

该研究的研究对象来自广西科技大学第一附属医院,所有参与者均为柳州市长期居民,具有相似的饮食习惯和环境暴露。研究人员收集了15对PD患者与健康配偶的首次晨尿样本,样本经无菌离心管采集后立即分装、液氮速冻15分钟,储存于-80°C直至代谢组学分析。样本采集于患者每日首次服药前进行,以最小化急性药物效应,但因伦理和临床原因未进行药物洗脱。代谢物提取采用80%甲醇(含内标2-氯-L-苯丙氨酸),经涡旋、离心和PTFE膜过滤后进行LC–MS分析。

技术方法方面,研究采用Thermo Vanquish UHPLC系统联合Orbitrap Exploris 120质谱仪,配备ACQUITY UPLC HSS T3色谱柱(2.1×100 mm, 1.8 μm),流动相为含0.1%甲酸的水/乙腈体系(正离子模式)或5 mM甲酸铵水溶液/乙腈体系(负离子模式),梯度洗脱程序为0-1 min 10%B、1-5 min线性升至98%B、5-6.5 min维持98%B、6.5-6.6 min降至10%B、6.6-8 min维持10%B。质谱采用电喷雾离子源,正负离子模式喷雾电压分别为+3.50 kV和-2.50 kV,鞘气40 arb,辅助气10 arb,毛细管温度325°C。全扫描MS1分辨率60,000(质荷比m/z 100-1,000),数据依赖MS2扫描分辨率15,000,归一化碰撞能量30%,动态排除靶向前4个离子。

数据处理采用ProteoWizard软件套件中的MSConvert工具将原始文件转换为mzXML格式,使用R语言XCMS包(v3.12.0)进行峰检测、保留时间对齐和积分,参数设置包括:带宽bw=2、质量精度容忍度ppm=15、峰宽范围peakwidth=c(5,30)秒、质荷比宽度mzwid=0.015、重叠峰最小质荷比差异mzdiff=0.01。系统技术变异通过基于混合质量控制(QC)样本的支持向量回归归一化校正,QC重复中变异系数(CV)>30%的代谢特征被剔除。主成分分析(PCA)显示QC样本在95%置信椭圆内紧密聚类,正负离子模式下分别保留80.3%和78.7%的特征,表明数据质量可靠。

监督多变量建模采用正交偏最小二乘判别分析(OPLS-DA),通过7折交叉验证估计预测能力Q2,并进行100次置换检验评估模型稳健性。差异代谢物筛选采用Student's t检验结合Benjamini-Hochberg错误发现率(FDR)校正,以VIP>1.0且原始p<0.05为探索性筛选标准。代谢物注释通过匹配HMDB、KEGG、LipidMaps、MassBank、mzCloud等公共数据库及Panomix Biomedical专有标准品数据库完成,质量精度阈值±30 ppm,并进行MS/MS碎片离子谱图比对验证。

机器学习候选标志物筛选采用MetaboAnalyst 5.0平台,实施三种算法:RF构建10个独立模型(每模型500棵决策树,基于平均准确度降低排序,取交集为共识特征集);SVM采用线性核与递归特征消除(RFE)优化变量选择;PLS-DA基于VIP评分排序。最终候选标志物定义为三种方法筛选结果顶20个特征的交集。多变量模型评估采用考虑配对信息的重复5折交叉验证,使用Logistic回归(LR)和SVM分类器,通过scikit-learn的GroupKFold确保配对样本始终分配至同一折,10次重复50折聚合预测概率评估性能,并进行1,000次置换检验评估AUC显著性。变量过滤阶段排除与PD药物直接相关的代谢物,通过方差膨胀因子(VIF)评估多重共线性(VIF>10者剔除),并剔除Pearson相关系数r>0.9的高度冗余变量。

研究结果显示,15对匹配参与者中,PD患者平均年龄66.31±7.25岁,对照63.00±9.37岁,体质指数(BMI)和性别分布差异均无统计学意义。所有30份样本均满足前处理质量控制要求。

技术质量评估方面,PCA分析显示QC样本在正负离子模式下均于95%置信椭圆内紧密聚类,PD患者与对照间分离明显;80.3%(正离子模式)和78.7%(负离子模式)的特征RSD<30%被保留,表明分析稳定性和技术重现性良好。

代谢分析和组间判别方面,OPLS-DA模型在正负离子模式下均显示清晰组间分离。正离子模式模型R2X=0.325、R2Y=0.996、Q2=0.754,含1个预测和2个正交组分;负离子模式R2X=0.221、R2Y=0.978、Q2=0.715,含1个预测和1个正交组分。100次置换检验中原始Q2值均超过所有置换值,回归线呈负截距,支持模型有效性。非靶向LC–MS分析共检测正离子模式7,558个、负离子模式6,891个代谢特征,符合VIP>1.0且p<0.05筛选标准者分别为1,208和903个特征,其中394个可经MS/MS确认注释。层次聚类热图显示PD样本形成2-3个明显亚群,提示代谢异质性;火山图揭示223个上调和171个下调代谢物。

机器学习特征选择方面,RF十轮模型中始终位列前20的特征构成RF共识集;SVM-RFE和PLS-DA分别基于权重系数和VIP评分筛选前20特征。三种方法交集识别出10个共识候选代谢物:多巴胺、苯乙腈、氰尿酸、3-甲酰水杨酸、6-亚氨基-5-氧代环己-1,3-二烯羧酸酯、16β-羟基类固醇、甘氨酸、氨己酸、dADP和ent-cassa-12,15-二烯-2β-醇。

候选标志物评估方面,单变量ROC分析显示全部10个候选代谢物组间差异显著,7个AUC达1.00,其余AUC>0.97。经药理学相关性、VIF和共线性过滤:排除与L-DOPA代谢直接相关的多巴胺,以及药敏相关的甘氨酸和16β-羟基类固醇;剔除VIF极高且高度相关的氨己酸;保留VIF较高但统计显著性和生物学可解释性更强的氰尿酸作为代表性代谢物;最终六个非冗余变量中,选取氰尿酸、苯乙腈、3-甲酰水杨酸、dADP和ent-cassa-12,15-二烯-2β-醇构建最终最小分类组合。该五代谢物组合的详细参数包括:氰尿酸(m/z 168.1133,RT 355.31秒,FC 16.70,log2FC 4.06,p=6.93×10-12,FDR=1.94×10-9,VIP=3.31,正离子模式);苯乙腈(m/z 233.105,RT 372.09秒,FC 9.16,log2FC 3.19,p=4.46×10-6,FDR=7.70×10-6,VIP=3.31,负离子模式);3-甲酰水杨酸(m/z 149.0961,RT 277.17秒,FC 219.44,log2FC 7.78,p=3.66×10-19,FDR=2.45×10-15,VIP=3.57,正离子模式);dADP(m/z 368.055,RT 2201.47秒,FC 74.39,log2burghFC 9.30,p=6.48×10-19,FDR=2.45×10-15,VIP=3.56,负离子模式);ent-cassa-12,15-二烯-2β-醇(m/z 272.222,RT 2329.22秒,FC 24.03,log2FC 4.59,p=7.42×10-15,FDR=7.01×10-12,VIP=3.46,正离子模式)。

多变量模型评估显示,SVM和LR模型在重复配对感知5折交叉验证和独立验证集上均表现优异,AUC>0.95,预测概率分布显示组间清晰分离,1,000次置换检验均p<0.001。

讨论部分,研究人员首先阐述了匹配配对设计的价值与挑战。OPLS-DA模型显示组间清晰代谢分离,与PD全身代谢效应一致。该设计虽因符合条件老年夫妇稀缺而限制样本量,但显著增强了观察差异更可能源于PD病理而非混杂因素的推断。PD组内观察到的代谢异质性可能真实反映疾病亚型或进展相关的生物学变异,而非未控制混杂的噪声。但研究人员也承认,配偶配对设计引入的固有性别不平衡可能导致部分观察到的代谢变异,需在今后更大队列的分层分析中解决。

其次,研究人员讨论了共识机器学习策略的价值。该策略旨在增强发现阶段候选物识别的稳健性,三种模型交集产生10个共识候选物,经药理学相关性和共线性过滤精炼为五代谢物组合。内部验证性能优异(AUC>0.95)但须注意,这主要反映该特定严格控制队列中的一致信号,而非已证实的泛化能力。由于标志物优先排序先于分类器评估,存在一定乐观偏倚;数个代谢物的完全或近完全区分既反映了高度控制的匹配设计,也受限于样本量。

生物学合理性方面,识别代谢物指向与PD病理生理学可能相关的多个途径:dADP涉及核苷酸代谢,与PD中嘌呤代谢和ATP循环途径显著紊乱一致;3-甲酰水杨酸与芳香族化合物代谢相关,与PD中芳香族氨基酸代谢途径改变及肠道菌群失调影响一致;氰尿酸和苯乙腈的升高可能反映解毒能力改变而非单纯环境暴露差异,与柳州作为工业中心长期交通和工业挥发性化合物暴露背景相关,提示环境毒物与宿主代谢易感性的相互作用;ent-cassa-12,15-二烯-2β-醇作为稻类植物抗毒素生物合成衍生物,在共享相似米饭饮食背景的患者与配偶间出现差异,更可能反映肠道通透性增加而非单纯饮食摄入差异,与肠-脑轴参与PD发病机制的证据一致。但研究人员强调,这些联系提供合理生物学背景支持进一步研究,并不构成机制性证据,且基于LC–MS/MS数据库匹配而非真实化学标准的注释应保持谨慎。

研究结论和未来方向方面,由于所有PD患者均接受稳定多巴胺能药物治疗,不能完全排除药物对识别代谢物的细微影响,且详细左旋多巴等效日剂量(LEDD)信息未能获取。该探索性研究的主要贡献在于两方面:一是证明匹配患者-配偶设计作为控制混杂、产生稳健候选生物标志物信号策略的效用,尽管其样本量受限;二是提出特定的尿液代谢物集合(氰尿酸、苯乙腈、3-甲酰水杨酸、dADP和ent-cassa-12,15-二烯-2β-醇)作为高优先级靶点供独立验证。未来研究应在更大规模、独立且更多样化的队列中评估该组合性能,包括药物初治患者,实施嵌套交叉验证框架和靶向定量验证以进一步减少特征选择偏倚;整合多组学数据(如微生物组、转录组学)对阐明其功能相关性和PD发病机制中的机制作用至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号