基于代谢组学的早产预测中机器学习技术的比较分析

《Computational and Structural Biotechnology Journal》:Comparative Analysis of Machine Learning Techniques in Metabolomic-Based Preterm Birth Prediction

【字体: 时间:2025年07月18日 来源:Computational and Structural Biotechnology Journal 4.1

编辑推荐:

  靶向血清代谢组学数据集(48早产/102足月)中,通过XGBoost结合自助法显著提升早产预测性能(AUROC=0.85),线性模型(PLS-DA/逻辑回归)表现中等(AUROC≈0.60),非线模型(ANN)因过拟合未达预期。SHAP分析揭示酰基肉碱、氨基酸衍生物(如色氨酸代谢物kynurenic acid、pipecolic acid)及酪氨酸代谢通路为关键预测标志物,病理富集分析显示异常代谢涉及免疫调节、氧化应激及胎盘功能维持相关通路。研究证实小样本临床数据中需结合模型迭代与特征筛选优化,并强调外部验证必要性。

  本研究探讨了机器学习(Machine Learning, ML)在预测早产(Preterm Birth, PTB)方面的应用潜力,使用了未靶向代谢组学(untargeted metabolomics)数据,这些数据来源于孕期第三阶段的孕妇血清样本。随着计算能力和算法的不断进步,机器学习在生命科学领域的应用日益广泛,为疾病机制、诊断和监测提供了新的视角。在临床研究中,代谢物能够作为生理变化的敏感指标,帮助揭示疾病的发展过程,因此,机器学习模型在代谢组学数据的分析中展现出重要价值。

研究采用了四种不同的机器学习算法:偏最小二乘判别分析(Partial Least Squares Discriminant Analysis, PLS-DA)、线性逻辑回归(linear logistic regression)、人工神经网络(Artificial Neural Networks, ANN)以及极端梯度提升(Extreme Gradient Boosting, XGBoost),其中XGBoost结合了自举重采样(bootstrap resampling)方法。研究对象来自加拿大卡尔加里市的All Our Families队列(AOF)研究,共有150名参与者,包括48名早产孕妇和102名足月分娩孕妇。通过分析这些数据,研究人员评估了不同机器学习模型的预测能力以及代谢物的解释性。

研究结果显示,模型的性能评估主要基于混淆矩阵、受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)和特征重要性排名。PLS-DA和线性逻辑回归等线性模型表现出了中等的分类性能,AUROC约为0.60,而ANN和XGBoost等非线性模型则显示出一定程度的改进。其中,结合自举重采样的XGBoost模型表现最为突出,其AUROC达到了0.85(95%置信区间为0.57–0.99,p < 0.001),表明其在分类准确性方面有显著提升。SHAP(Shapley Additive Explanations)分析揭示了酰基肉碱(acylcarnitines)和氨基酸衍生物(amino acid derivatives)作为主要的区分特征,这说明这些代谢物在预测早产方面具有关键作用。进一步的通路分析则表明,酪氨酸代谢(tyrosine metabolism)以及苯丙氨酸、酪氨酸和色氨酸生物合成(phenylalanine, tyrosine and tryptophan biosynthesis)等通路在早产过程中受到了影响。

从研究背景来看,机器学习与代谢组学的结合为探索疾病机制和发现生物标志物提供了独特的机会。通过分析生物系统中的元数据,机器学习能够识别隐藏的模式和相关性,从而揭示疾病发生的潜在机制。尽管PLS-DA在多变量分类任务中一直是一种广泛应用且有效的分析方法,但近年来,机器学习技术在代谢组学研究中的应用逐渐增多。例如,t分布随机邻域嵌入(t-distributed stochastic neighbor embedding, t-SNE)等非线性模型,能够通过非线性变换提高数据拟合能力,实现有效的降维和类间分离的可视化。此外,这些模型还使用了递归特征消除(recursive feature elimination)和降维等高级特征选择方法,以识别最具信息量的代谢物。

虽然二分类模型因其明确的“是或否”决策方式受到广泛关注,但多决策问题在临床研究中同样存在,机器学习技术也被用于辅助这些决策过程。然而,临床数据集通常面临样本量有限的问题,这限制了许多复杂算法的应用。因此,本研究旨在评估几种常见的机器学习方法在小规模临床数据集中的表现,特别是在预测早产方面的潜力。以往的研究已经展示了机器学习在代谢组学分析中的应用价值。例如,一项基于母体阴道液代谢组数据的研究显示,机器学习方法在预测自发性早产方面优于仅依赖微生物组或母体协变量的方法,达到了AUC=0.78的成绩,这一结果在两个独立队列中得到了验证。同样,Al Ghadban等人利用未靶向血清代谢组学方法,在399名孕妇中进行了多时间点的样本采集,发现随机森林(random forest)模型在预测自发性早产方面表现最佳,AUC=0.73,随后是广义提升模型(generalized boosted model)的AUC=0.71。此外,将代谢物特征与临床风险因素结合,也被证明在预测早产方面具有显著效果。SCOPE研究使用未靶向血清代谢组学数据,发现结合代谢物信息和临床风险因素的模型在早产风险识别方面表现更佳,AUC为0.73。

整体来看,这些模型主要依赖于先进的特征选择技术和分类算法,以识别与早产风险相关的代谢物模式。基于这一背景,研究假设更复杂的非线性模型可能在处理此类数据时优于传统方法,因为它们能够更好地拟合观察到的方差。因此,本研究评估了线性和非线性机器学习模型在预测早产方面的表现,并采用特征选择方法以促进生物学解释。

在方法部分,研究使用了来自第三孕期的孕妇血清样本,这些样本是从非空腹孕妇的前臂静脉采集的,采集时间在28至32周之间。该阶段被选中是因为其代谢特征在之前的研究中已被证实具有较强的表现,并且是干预早产风险的最后窗口期。参与者(n=150)是All Our Families队列的一部分,他们捐献了血液样本(正式名称为All Our Babies)用于监测母体和胎儿状态的持续项目。此外,还可以通过项目网站获取更多关于AOF研究方法和结果的信息。研究获得了卡尔加里大学儿童健康研究办公室和联合健康研究伦理委员会的批准,以获取参与者的书面知情同意。研究对象的入选标准包括年龄≥18岁、怀孕初期未超过25周、在加拿大阿尔伯塔省接受产前护理,并愿意完成英文问卷。根据分娩时间,参与者被分为早产组(分娩时间早于37周)和足月组(分娩时间超过37周)。孕周是根据参与者报告的末次月经计算得出的。参与者特征如表1所示。对于连续变量,如体重指数(BMI, kg/m2),计算了均值和标准差,而分类变量则用均值和相对百分比(%)表示。统计学上的显著性基于p值,设定显著性阈值为0.05,使用非配对t检验(two-tailed distribution)比较早产组和足月组之间的差异。

研究中的代谢组学分析采用了未靶向方法,通过液相色谱-质谱联用技术(liquid chromatography mass spectrometry, LC/MS)进行。在分析过程中,所有样本均被盲法处理,以避免研究者对结果的主观影响。采集后,血清样本经过离心处理并储存在-80°C,直到分析当天。在分析前,血清样本从-80°C解冻并置于冰上,随后使用100%甲醇进行蛋白质沉淀。离心后收集上清液,再进行溶剂蒸发。接着,用50%甲醇和50%水重新配制,并通过200微米滤膜去除杂质。分析方法基于正离子模式的LC/MS(QTOF 6545i,Agilent,美国),使用反相色谱(reverse phase chromatography)通过Acquity HSS(2.1 ×150 mm,Waters,美国)进行分离。梯度洗脱系统在移动相设置中使用了(A)0.1%甲酸水溶液和(B)0.1%甲酸乙腈溶液,用于亲和分离。随后,通过时间飞行质谱仪(time-of-flight mass spectrometer)记录了质量电荷比(m/z)在50至1200之间的离子。收集的光谱数据通过XCMS版本3.7.1进行处理,以标记峰并计算强度。代谢物的识别基于人类代谢组数据库(Human Metabolome Database, HMDB),根据m/z值确定最可能的化合物候选,设定的容忍度阈值为30 ppm。CV值大于30%的化合物被排除在进一步分析之外。最终,共识别出181种内源性已知代谢物。

在计算建模方法方面,研究设计了一个分析流程,包括数据处理和建模步骤。如图1所示,该流程涉及异常值去除、缺失值处理、数据标准化等。异常值通过ROUT方法进行去除,设定的阈值为Q=1%(GraphPad Prism 9.0,美国)。缺失值由于异常值测试或仪器检测缺失而产生,通过K近邻插值法(K-nearest neighbor imputation)进行替换。数据随后通过z-score变换进行标准化。大部分数据预处理,包括数据过滤和标准化,以及后续的建模工作均在Google Colaboratory(Colab)中完成。每个模型都编码在单个Python脚本中,包括文件上传和模型性能评估,如准确率、AUROC曲线和混淆矩阵。基于文献中常见的训练/测试分割比例,选择了80:20的比例进行数据分割。总共有150名参与者,其中120名用于训练模型,30名用于验证模型性能。由于许多算法的性能受超参数影响,仅报告了优化后的最佳模型结果。正则化方法(L1或L2)和dropout对模型性能没有显著影响。

在模型选择和区分部分,研究探讨了不同模型在预测早产方面的表现。PLS-DA作为多变量分类任务的首选方法,尤其在处理高维数据或共线性预测变量时表现出色。PLS-DA在Python的Scikit-learn库中进行,使用PLSRegression包,通过2个成分捕捉了25%的训练数据方差,以达到最佳预测性能。PLS-DA的结果首先被转换为二元预测,通过设定阈值为0.5的astype(integer)函数进行转换,随后在测试数据上进行验证。线性逻辑回归则建立了预测变量与结果对数几率之间的关系,其数学表达式为logit(p) = β0 + β1X1 + β2X2 + ... + βnXn,其中β0为截距项,β1至βn为各特征的系数。通过逻辑变换,将线性组合转换为预测概率,确保其在0到1之间。该模型在Scikit-learn的LogisticRegression包中实现,采用liblinear求解器。正则化方法未被实施,因为其并未影响模型性能。最终的训练和验证损失用于反映训练质量。

人工神经网络(ANN)则由多个相互连接的节点(称为神经元)构成,至少包括输入层、一个或多个隐藏层和输出层。每个神经元接收前一层神经元的输入,应用一系列数学操作,并产生输出信号。输出a的神经元i在层l中可定义为activation(z_i(l)),其中z_i包括前一神经元的输入值和神经元i的权重。在本研究中,构建了一个三层结构的神经网络,采用修正线性单元(rectified linear unit)作为激活函数,通过Python的Tensorflow库实现。激活函数对结果的影响取决于数据类型和质量。每个模型设置为迭代100次(epoch),并在每次迭代中计算训练损失、训练准确率、验证损失和验证准确率。后续的epoch会通过反向传播(backpropagation)优化模型,以降低损失。Adam优化方法用于最小化训练中的损失。

XGBoost分类器则基于集成学习方法,以其在预测建模和分类任务中的高效性而闻名。其核心在于一个目标函数,通常为个体实例特定损失函数的总和,如回归中的平方误差损失或分类中的逻辑损失,同时结合正则化项以减少过拟合。目标函数可以表示为Objective = ∑(loss(yi, ?i)) + ∑(Ω(fk)),其中loss(yi, ?i)衡量真实目标yi与预测目标?i之间的差异,而Ω(fk)为每个树的正则化项。XGBoost建模使用了xgboost库中的XGBClassifier包,学习率设为0.1,采用100个弱学习器。目标函数选为“binary:logistic”以适应早产/足月分类任务。最大树深度设为5,最小树分割损失设为0,以实现更宽容的损失减少和模型估计。

在预测确定性评估部分,研究基于概率分布计算了模型的预测结果。通过使用Python的matplotlib绘图库,研究人员可视化了数据点的分布情况。同时,利用Seaborn库对不同数据类别进行标注和区分。概率值范围从0到1,其中0代表样本被预测为早产的绝对确定性,而1则代表足月的绝对确定性。在概率分布图中,样本点被表示为散点,其在X轴上的预测类别概率值和Y轴上的任意坐标用于可视化。通过将数据集分为训练集和测试集,研究人员构建模型并验证其准确性。对于自举模型,平均早产/足月分配被报告出来。

在模型选择与区分部分,研究评估了不同模型在预测早产方面的性能。PLS-DA模型在训练和测试数据上表现出中等的准确性,但存在较高的误判率。线性逻辑回归模型的准确性略高于PLS-DA,但其在测试集上的表现仍然有限。ANN模型在训练数据上表现出色,但在验证数据上遇到了泛化问题。XGBoost模型虽然在训练数据上具有较高的准确性,但其在测试数据上的表现不佳,主要由于类别不平衡导致的预测偏差。研究人员指出,虽然ANN模型在预测概率方面具有优势,但其在训练数据上的过度拟合问题限制了其在测试数据上的表现。

在研究结果部分,SHAP分析揭示了与早产预测相关的代谢物,其中酰基肉碱和氨基酸衍生物是主要的贡献者。这些代谢物在早产孕妇中表现出明显的减少趋势。此外,某些代谢物如哌啶酸(pipecolic acid)和犬尿氨酸(kynurenic acid)在多个模型中被识别为关键的预测因子。哌啶酸是赖氨酸降解的关键代谢物,其在早产孕妇中显著增加。犬尿氨酸则来自色氨酸代谢,其在早产孕妇中减少。这些代谢物的变化与免疫调节和细胞能量活动相关,其通路的改变已被与妊娠并发症联系起来。

通路分析进一步揭示了早产与某些关键代谢通路之间的关联。例如,酪氨酸代谢和苯丙氨酸、酪氨酸和色氨酸生物合成通路被显著改变。这些通路对维持妊娠至关重要,因为它们影响免疫调节、氧化应激和胎盘功能。尽管SHAP分析识别了脂肪酸相关的代谢物,但通路分析往往因数据库覆盖范围有限和通路的通用表示而忽略这些信号。这表明,代谢物与通路之间的关系需要更细致的分析。

本研究的成果表明,机器学习模型在预测早产方面具有一定的潜力,但不同模型的性能差异显著。线性模型如PLS-DA和线性逻辑回归在小样本数据集中表现中等,而非线性模型如ANN和XGBoost则表现出不同的优势和劣势。其中,XGBoost结合自举重采样后表现出最佳的预测能力,这主要归因于其对类别不平衡问题的缓解。然而,非线性模型在某些情况下可能因为过拟合而表现不佳,尤其是在训练集上过于精确,导致在测试集上泛化能力受限。因此,研究强调了在小规模临床数据集中采用迭代和模型驱动的方法来优化预测准确性的重要性。

研究还指出,尽管机器学习模型在预测早产方面显示出一定的优势,但其在实际临床应用中仍面临挑战。首先,样本量有限是临床数据集的一个普遍问题,这限制了复杂模型的性能。其次,模型的泛化能力需要进一步提升,特别是在面对不同数据分布时。此外,当前研究仅关注早产的二分类问题,而早产具有多种病因,未来的研究应考虑多分类方法,以更全面地分析早产的不同类型。同时,将临床风险因素纳入模型中,可以进一步提高模型的精度,从而支持更精确的临床决策。

综上所述,本研究揭示了机器学习在预测早产方面的潜力,同时也指出了其在临床应用中的局限性。通过结合自举重采样等方法,可以有效缓解类别不平衡问题,提高模型的预测性能。然而,为了将这些发现转化为实际的临床工具,需要进一步的外部验证和多分类方法的探索。此外,对代谢物与通路之间关系的深入分析,以及对模型泛化能力的提升,都是未来研究的重要方向。这些发现为利用机器学习技术进行早产预测提供了重要的参考,也为后续的临床研究奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号