综述:偏最小二乘法在暴露组学研究中的应用与挑战综述

《Analytica Chimica Acta》:A Review of the Applications and Challenges of applying Partial Least Squares (PLS) to Exposomics Research

【字体: 时间:2025年11月02日 来源:Analytica Chimica Acta 6

编辑推荐:

  本综述系统评述了偏最小二乘(PLS)回归这一化学计量学经典算法在暴露组学这一新兴前沿领域的应用潜力与挑战。文章强调PLS能有效处理高维、共线性的暴露数据,通过提取潜变量最大程度捕捉暴露特征与健康结局(如疾病发生、进展)的协方差关系,为解析复杂环境-健康相互作用提供了优于传统回归的解决方案,对推动环境公共卫生(Environmental Public Health)和医学研究具有重要意义。

  
偏最小二乘回归方法在暴露组学中的应用
暴露组学范式为环境公共卫生和医学研究提供了一个全面的框架,使得在群体层面研究复杂的暴露-疾病关系以及阐明支撑个体健康轨迹的个性化暴露特征成为可能。在分析暴露组学研究特有的高维且经常共线的数据时,偏最小二乘(PLS)回归[1], [2]提供了一种有价值的分析工具。
引言
与传统统计方法不同,PLS能够有效地进行降维并识别潜变量,这些潜变量能够最大化复杂暴露特征与健康结局之间的协方差。这一特性使得PLS特别适合剖析环境对健康影响的复杂模式,为处理暴露组数据固有复杂性能力较弱的方法提供了一个强有力的替代方案。本综述旨在重点介绍PLS在量化和研究环境暴露对疾病发生、进展及治疗反应影响方面的一些应用。随着现代组学技术的发展,研究重点已更多地转向可揭示环境暴露与结局之间因果通路的“软”结局,如暴露和反应的生物标志物[3]。这涉及分析高维数据,例如多组学数据集或大量监测到的时间序列暴露数据。鉴于需要有效检查大型数据集并识别暴露与疾病通路之间的复杂关系,机器学习(ML)方法在医学研究和环境流行病学中备受青睐。偏最小二乘回归有潜力成为建立暴露组与健康结局之间关联的首选分析工具。
偏最小二乘回归方法在暴露组学
暴露组涵盖了个体从出生到死亡整个生命过程中所经历的全部暴露。研究这需要纵向测量个体生命历程中的暴露。然而,在特定关键时期(例如,子宫内/婴儿期、儿童期、青春期和成年期)进行具有代表性的横断面评估可以捕捉到关键的暴露窗口。暴露组大致分为三个相互关联的领域:内部、特定外部和一般外部。分析此类数据的主要挑战在于其高维性、多重共线性以及暴露与健康结局之间经常存在的复杂非线性关系。
PLS算法的简要评述
偏最小二乘投影到潜结构(PLS)是一种回归算法,用于生成涉及独立X变量(预测变量)和因变量Y变量(响应变量)的多元模型。这些模型可用于多元校准、数据解释、分类/判别分析以及从X预测Y等应用。该方法由S. Wold, H. Martens和H. Wold于1983年在化学计量学领域开创[1]。此后,其应用已扩展到众多领域。
PLS模型在环境健康中的适用性
本节将讨论PLS方法在环境健康和暴露组学领域的各种应用(图2)。PLS回归[1], [2]通过最大化X-Y平方协方差,对包含独立预测变量(例如,暴露变量)的X数据矩阵与包含因变量响应变量(例如,健康结局)的Y数据矩阵之间的关系(相关性)进行建模。PLS能够处理变量多于样本的数据集,并且即使在预测变量高度相关(多重共线性)的情况下也能产生稳定解。这些特性使其特别适合暴露组学应用。常用的变体包括稀疏PLS(sPLS),它通过变量选择来提高模型可解释性;以及PLS判别分析(PLS-DA),用于分类任务。此外,正交PLS扩展和基于PLS的路径建模(PLS-PM)或结构方程建模(PLS-SEM)也已应用于该领域。
因果推断
许多流行病学研究,特别是那些采用同时包含多种环境应激源(例如,污染物)的统计模型的研究,常常难以分离出因果关系。这种推断因果关系的困难可能源于多种因素,包括模型中存在的混杂效应[23]、跨时空准确表征暴露的挑战、对潜在生物机制的不完全理解,以及暴露测量中的误差。虽然PLS本身是一个关联模型,但它可以通过识别代表暴露混合物的潜变量,为理解复杂的多暴露效应做出贡献,这些潜变量随后可以纳入更正式的因果推断框架。
结论
PLS模型在流行病学、公共卫生、环境科学、医学研究以及(尤为重要的是)本综述重点关注的环境健康领域展现出相当大的通用性和适用性。我们的文献筛查揭示了特定PLS方法应用的明显模式。值得注意的是,sPLS、PLS-DA、正交PLS扩展以及PLS-PM/PLS-SEM在环境健康应用中越来越受到关注。PLS处理高维、共线性数据的能力,及其提供可解释潜变量的能力,使其成为暴露组学研究的强大工具。尽管在因果推断和模型解释等方面存在挑战,但PLS在推进我们对疾病病因学的理解方面具有巨大潜力,从而为制定更具针对性、更有效的公共卫生干预措施提供信息。未来的发展可能在于将PLS与其他机器学习技术以及新兴的因果推断方法更紧密地结合起来。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号