基于机器学习识别与预测荷兰人群饮食模式:传统型与健康意识型模式的特征分析
《EUROPEAN JOURNAL OF NUTRITION》:Identifying and predicting dietary patterns in the Dutch population using machine learning
【字体:
大
中
小
】
时间:2025年10月24日
来源:EUROPEAN JOURNAL OF NUTRITION 4.3
编辑推荐:
本研究针对营养流行病学从单一营养素转向饮食模式研究的趋势,应用机器学习算法分析荷兰国家食品消费调查数据。研究人员比较K-means、K-medoids和层次聚类方法,发现K-means最优识别出传统型与健康意识型两种饮食模式,并通过六种分类器(准确率60-68%)证实教育水平、年龄和BMI是关键预测因子,为制定精准公共卫生干预提供新思路。
在营养科学领域,研究者们逐渐意识到单纯分析某种营养素或食物与健康的关系存在局限性——毕竟现实生活中,人们摄入的是包含多种营养成分的复合膳食。这种认知转变推动营养流行病学从"单一营养素"研究范式向"饮食模式"研究范式演进。传统识别饮食模式的方法如主成分分析(PCA)和聚类分析虽然广泛应用,但难以捕捉膳食组分间的复杂相互作用。更棘手的是,标准参数化方法很难准确编码这些交互作用到统计模型中,可能导致制定的膳食建议无法满足不同人群的多样化需求。
这种方法论上的局限在COVID-19大流行后显得尤为突出。系统综述显示,疫情期间全球范围内健康饮食依从性下降,营养食物偏好减弱。荷兰本土研究也发现,虽然多数成年人饮食行为变化不大,但超重/肥胖群体和高教育水平人群更可能报告饮食健康度下降。这些发现强调了监测饮食模式变化的重要性,尤其是脆弱亚群。然而,现有研究多使用疫情前数据,且尚未有针对荷兰人群使用聚类分析识别饮食模式的研究。
在此背景下,Marlijn L. van Houwelingen和Yinjie Zhu在《European Journal of Nutrition》发表的研究,旨在应用机器学习方法突破传统统计方法的限制。他们利用最新的荷兰国家食品消费调查(DNFCS)数据,不仅比较不同聚类算法在识别饮食模式上的效能,还通过分类模型探索社会人口学和生活方式因素与饮食模式的关联。
研究人员采用的关键技术方法包括:利用荷兰国家食品消费调查(2019-2021)的膳食消费数据,包含867名男性和866名女性参与者的信息;比较K-means、K-medoids、层次聚类和密度聚类四种算法识别饮食模式;使用六种分类器(朴素贝叶斯、K近邻、决策树、随机森林、支持向量机和XgBoost)预测饮食模式;通过十折交叉验证优化模型参数;采用轮廓系数、Davies-Bouldin指数等内部验证指标评估聚类效果。
通过系统比较四种聚类算法在男女数据集上的表现,研究发现K-means聚类为最优选择。在男性中,K-medoids和层次聚类Ward法产生三个簇,而K-means产生两个平衡簇。女性中所有算法均产生两个平衡簇。评估指标显示,K-means在男女数据集中均获得最高轮廓系数(男性0.045,女性0.054)和Calinski-Harabasz指数(男性38.913,女性41.686),在女性中还获得最高Dunn指数(0.116)。虽然K-medoids获得最低Davies-Bouldin指数(男性2.712,女性2.631),但综合考虑聚类平衡性和可解释性,K-means被选为最终聚类方法。
K-means聚类识别出两种明显不同的饮食模式:传统型和健康意识型。健康意识型模式的特点是水果摄入量显著较高(男性增加87%,女性增加48%),蔬菜消费量也明显更高(男性增加39%,女性增加65%)。此外,该模式还包含更多的茶、坚果、种子和早餐谷物摄入。相比之下,传统型模式则表现出更高的能量摄入,以及更多的面包、土豆、红肉和加工肉类、咖啡、脂肪和油脂以及含糖饮料消费。性别特异性差异也很明显:传统型女性摄入更多烘焙冷冻甜点(+43%)和加糖乳制品(30克/天 vs. 0克/天),而健康意识型男性消费更多无糖乳制品(+35%)。总体而言,男性在多个食物类别上消费量更高,包括含糖饮料、肉类、土豆等,导致更高的中位能量摄入。
研究还发现不同饮食模式人群的社会人口学特征存在显著差异。传统型饮食模式在男女中均与较高的平均BMI、较低教育水平比例和较高吸烟率相关。传统型男性中来自荷兰北部的比例更高,而传统型女性中体力活动不活跃和半活跃比例更高,荷兰裔比例更高,屏幕时间超过14小时的比例也更高。相反,健康意识型模式则与较高教育水平、较低BMI和较高非吸烟者比例相关。
六种分类器在预测饮食模式方面表现出中等准确度(60-68%)。男性中,朴素贝叶斯和支持向量机准确率最高(0.62,95%CI 0.56-0.68),随机森林灵敏度最高(0.83)。女性中,支持向量机准确率最高(0.68,95%CI 0.62-0.74),K近邻灵敏度最高(0.85)。所有模型的特异性相对较低,男性最高为决策树(0.59),女性最高为决策树(0.52)。特征重要性分析显示,教育水平和BMI在多个模型中被识别为最重要的预测因子,其重要性值在较窄范围内波动(男性0.51-0.60,女性0.51-0.66)。决策树、随机森林和XgBoost模型在男性中识别BMI和年龄为最重要特征,而在女性中,决策树认为教育水平最重要,随机森林和XgBoost则认为BMI和年龄最重要。
研究结论强调,机器学习算法特别是K-means聚类,能有效识别人群饮食模式。在荷兰人群中识别出的健康意识型和传统型模式,与欧洲其他研究结果一致,但传统型模式在COVID-19疫情期间可能更加突出。分类模型的中等预测准确度表明社会人口学和生活方式因素与饮食模式存在可量化的关联,但模型性能仍有提升空间。
讨论部分指出,本研究的方法学比较为饮食模式研究提供了客观工作流程,有助于提高研究可重复性。与传统方法相比,机器学习能更好地捕捉膳食组分的复杂相互作用。政策意义上,针对传统型饮食模式人群(特征为低教育水平、高BMI、高龄)的公共卫生干预尤为重要,因为该模式与多种慢性疾病风险增加相关。
研究的创新点包括同时比较多种聚类算法、提供系统化分析流程、分性别分析模式差异、使用最新包含疫情期间的数据以及应用多种分类器预测模式。局限性方面,横断面设计无法推断因果关系,24小时回忆法可能存在回忆偏倚,样本年龄范围有限制泛化性,且缺乏外部验证数据集。
总体而言,该研究证明了机器学习在营养流行病学的应用价值,为未来制定更精准、个性化的膳食指南和公共卫生干预措施提供了方法论基础。后续研究应关注模型效度和可重复性的提升,以及饮食模式随时间变化的动态监测。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号