
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的3-MCPD与缩水甘油及其酯类内暴露与膳食暴露关联评估新方法
【字体: 大 中 小 】 时间:2025年06月26日 来源:Ecotoxicology and Environmental Safety 6.2
编辑推荐:
本研究针对食品加工污染物3-单氯丙烷-1,2-二醇(3-MCPD)和缩水甘油(glycidol)及其酯类的健康风险,创新性地采用七种机器学习算法构建内暴露(尿液代谢物DHPMA)与膳食暴露的关联模型。研究团队通过对1587名中国中老年人群的分析,发现DHPMA浓度、食用油摄入和总能量是预测膳食暴露的关键指标(p<0.001),其中广义加性模型(GAM)和极限梯度提升(XGBoost)表现最优(R2>0.6)。该研究为食品污染物风险评估提供了创新方法,实现了从生物标志物到膳食暴露的精准预测。
在食品加工和化工生产领域,3-单氯丙烷-1,2-二醇(3-MCPD)和缩水甘油(glycidol)及其酯类是一类备受关注的污染物。这些物质常见于精炼食用油、烘焙食品甚至婴幼儿配方奶粉中,国际癌症研究机构(IARC)已将其分别列为2B类(可能致癌)和2A类(很可能致癌)致癌物。尽管欧洲食品安全局(EFSA)设定了2μg/kg bw/day的3-MCPD每日耐受摄入量(TDI),但传统膳食暴露评估存在重大局限:一方面无法反映污染物的生物利用度,另一方面难以区分内源性代谢干扰。更棘手的是,这些污染物在体内会相互转化并产生共同代谢产物,使得精准评估变得异常复杂。
针对这一难题,中国的研究团队开展了一项创新性研究,成果发表在《Ecotoxicology and Environmental Safety》。研究团队从精准营养与食品安全(PNFS)队列中筛选1587名40-75岁参与者,采集人口统计学数据、膳食信息和尿液样本。通过超高效液相色谱-串联质谱(UHPLC-MS/MS)测定尿液中二羟丙基巯基尿酸(DHPMA)浓度,结合食物频率问卷(FFQ)计算膳食暴露量。研究采用七种机器学习算法(MLR、GAM、RF、SVR、XGBoost、LightGBM和CatBoost),通过五折交叉验证优化参数,建立内暴露与膳食暴露的关联模型。
在研究方法上,研究团队首先通过Lasso回归筛选关键变量,消除共线性影响。采用随机搜索进行超参数优化,使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)评估模型性能。通过变量重要性分析确定关键预测因子,并利用自然三次样条检验非线性关系。为验证模型稳健性,研究还进行了分层分析和交互作用检验。
研究结果部分,"人群特征"显示参与者平均年龄59.5岁,尿DHPMA平均浓度为1722.7 nmol/g Ucr(尿肌酐校正),膳食3-MCPD和缩水甘油暴露量分别为27.0和36.0 μg/天。"MLR模型"分析发现,在调整多种协变量后,DHPMA与膳食暴露量(dietaryMG)仍呈显著正相关(p<0.001)。通过Lasso回归筛选后,豆油、花生油和猪油摄入量、总能量摄入和教育程度等成为重要预测因子。
"GAM模型"揭示了更复杂的非线性关系:DHPMA、肌酐、身高、代谢当量(MET)和总能量摄入与膳食暴露存在显著非线性关联(p<0.05)。当考虑DHPMA与吸烟、食用油摄入等交互项时,关联性进一步增强。"机器学习模型训练与验证"显示,七种模型均表现出色(R>0.6),其中GAM和XGBoost表现最优(R2分别为0.470和0.452)。"模型变量重要性分析"发现,在XGBoost模型中,DHPMA在Gain、Frequency和Cover指标分别排名第5、3、5位,证实其核心预测价值。
研究结论指出,这是首次通过机器学习将尿液DHPMA作为生物标志物与膳食3-MCPD和缩水甘油暴露建立定量关联。GAM和XGBoost模型表现出最优预测性能,证实DHPMA可作为评估这两类污染物暴露的可靠标志物。该研究的创新性体现在三个方面:一是突破了传统膳食评估的局限性,实现从生物标志物反推暴露水平;二是揭示了多种生活方式因素(如吸烟、运动量)对暴露-效应关系的修饰作用;三是为食品安全风险评估提供了可推广的机器学习框架。
这项研究的实际意义重大。在科学层面,建立了食品污染物"外暴露-内暴露"的桥梁,解决了代谢转化带来的评估难题。在应用层面,模型可用于识别高风险人群,指导个性化膳食干预。在监管层面,为制定基于生物监测的食品安全标准提供了方法学支持。研究团队建议未来扩大人群范围,结合多组学技术发现更多特异性生物标志物,并开发自动化风险评估系统,为食品安全监管提供实时、动态的技术支撑。
生物通微信公众号
知名企业招聘