三大语言模型在食物图像营养评估中的性能对比:迈向自动化膳食监测的新纪元

【字体: 时间:2025年09月14日 来源:Current Developments in Nutrition 3.2

编辑推荐:

  本研究针对传统膳食评估方法存在回忆偏倚、参与者负担和份量估算误差等问题,系统评估了ChatGPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro三种大型语言模型(LLMs)从标准化食物图像中估算营养含量的性能。通过分析52张标准食物照片发现,ChatGPT和Claude在重量和能量估算中表现出相近准确度(MAPE≈36%),显著优于Gemini(MAPE≈64-110%)。所有模型均存在随份量增加而加剧的系统性低估现象。研究表明前沿LLMs可实现与传统自报告方法相当的精度,且无用户负担,为自动化膳食监测提供了新解决方案,但在临床营养等需要精确计量的场景中仍需进一步改进。

  

在营养科学与公共卫生领域,准确评估膳食摄入量始终是研究人员面临的重大挑战。传统的膳食评估方法包括回顾性24小时回忆(24HR)和前瞻性膳食记录——称重食物记录(WFR)和估计膳食记录(EDR)。虽然WFR被视为金标准,但这种方法不仅增加参与者负担,还可能改变正常的饮食行为。而更实用的EDR则引入了显著的测量误差,特别是在混合餐或烹饪餐中,由于水分吸收或损失,重量发生变化,导致份量估算困难。研究表明,个体存在系统性偏倚:往往低估高能量密度食物,同时高估"健康"食物。即使在使用双标水法的验证研究中,能量摄入报告误差也高达20-50%,且个体间变异性显著,这凸显了改进方法的迫切需求。

近年来人工智能技术的突破为这一领域带来了新的希望。图像辅助方法结合实时数据质量检查,可将漏报率降低达30%。2016年以来,卷积神经网络(CNN)在食物识别系统中占据主导地位,在76%的相关研究中得到应用。从采用手工特征(SIFT、SURF、颜色直方图)结合传统分类器(SVM、KNN、ANN)的早期方法,到深度学习架构(AlexNet、ResNet)在Food-101和UEC-Food 256数据集上达到90.27%和83.15%的准确率,食物识别技术取得了长足进步。专门化系统如TADA在受控数据集上实现96%分类准确率,im2calories在受限餐食中报告20%的平均绝对热量误差,GoCARB显示碳水化合物计数的平均绝对误差为12克。

最近出现的多模态大语言模型(LMMs)展现出令人瞩目的成果。Lo等人(2024)发现GPT-4V即使在低光条件下也能达到与营养师相当的平均绝对误差(46.3克 vs 48.5克)。食品专用LLMs如FoodSky利用情境信息提供专业营养指导,甚至能通过专业烹饪考试。尽管商业应用(MyFitnessPal、Lose it!、Foodnoms)激增,但经过同行评审的评估仍然有限。

在此背景下,Jonatan Fridolfsson、Emma Sj?berg、Meri Thiw?ng和Stefan Pettersson来自瑞典哥德堡大学医学研究所生活方式干预中心的研究团队,在《Current Developments in Nutrition》上发表了他们对三种领先大型语言模型在食物图像营养含量估算中的性能评估研究。

研究人员采用验证性研究设计,比较ChatGPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro从标准化食物照片中估算营养含量的性能。使用相同提示词,每个模型分析52张食物图像(包括单独成分和完整餐食的不同份量),结果与直接称重和营养数据库分析(Dietist NET)获得的参考值进行比较。

研究纳入完整餐食(n=12)和单独成分(n=16)。完整餐食以三种淀粉类基础(米饭、面条、煮土豆)构建,每种基础与九种蛋白质来源(鸡肉、炒蛋、鸡肉咖喱、沙拉三明治、扁豆咖喱、碎肉、煎蛋饼、肉饼或鹰嘴豆)和四种蔬菜(卷心菜、萝卜、西兰花或混合绿叶菜包括芝麻菜、菠菜和瑞士甜菜)组合。还包括三种预包装便利餐食(Pasta Alfredo 400g、Fish and Chips 340g、Chicken Curry 390g)。制备餐食和淀粉成分以三种份量(小、中、大)拍摄,蛋白质来源和蔬菜仅以中等份量拍摄。中等份量根据瑞典食品局的标准值确定,小和大量分别定义为中等份量的50%和150%。

所有食物在拍摄前使用校准数字秤称重,烹饪后记录重量。使用Dietist NET营养计算软件包分析能量和宏量营养素含量,该软件参考USDA国家营养数据库。预包装餐食以制造商提供的营养信息作为参考值。

图像采集使用iPhone 13双摄像头系统在标准化条件下完成。白色瓷盘(直径24.3厘米)放在米色亚麻桌布上,标准餐具(19厘米叉子、20.5厘米刀子)置于距盘边1.5厘米处提供尺寸参考。照片以42度角拍摄,位于盘子上方20.2厘米、距盘边20厘米处,这种角度旨在最佳显示食物的深度和高度。完整餐食中,蔬菜始终最靠近相机,各成分在盘子上分区域摆放。为保持数据质量,每张照片使用新鲜制备的份量而非重复使用物品。

每个照片由三个LLMs独立分析,使用相同提示词:"对图片中不同食物进行营养分析。首先识别菜肴的不同成分。第二,基于食物相对于图像中其他物体的大小估算体积。估算不应仅基于典型份量,而应考虑其相对于图像中其他物体的大小。第三,基于典型参考值确定食物的营养含量。将结果汇总为表格,列为重量、能量、碳水化合物、脂肪和蛋白质,行为菜肴的不同成分。最后在末尾行总结数字。"

提示词通过迭代测试开发,以优化不同份量下的模型性能。每个图像的分析使用新聊天实例进行,防止模型在学习或适应过程中。所有AI分析在2024年9月进行。

统计分析使用R(版本4.4.0)进行。对每个模型和营养素(重量、能量、碳水化合物、蛋白质、脂肪)计算以下指标:平均绝对百分比误差(MAPE)及95%置信区间(使用Bootstrap重采样1000次)、Pearson相关系数及置信区间、AI估算值与参考值之间的平均差异。绘制Bland-Altman图评估一致性,数据点按份量颜色编码,一致性限设置为±1.96标准差。使用差异对参考值的线性回归评估系统性偏倚。

事后评估样本量考虑。每个模型比较52对观察值,设计提供80%功效在0.05显著性水平检测中等效应大小(d≥0.4)。基于观察到的能量估算变异性,这对应于检测模型间约60千卡的系统差异,约代表典型餐食能量含量的15%。

研究人员选择不将食物识别准确度作为二元指标报告,因在混合餐中定义"正确"识别复杂。例如,如果模型正确识别五个成分中的四个但错误分类一个项目,二元分类会将整个餐食标记为不正确,丢失关于部分准确度的细微信息。相反,对连续营养指标的关注提供了更精细的模型性能洞察。

研究结果显示,ChatGPT、Claude和Gemini在估算重量、能量、碳水化合物、蛋白质和脂肪含量方面表现出不同水平的准确度。

平均绝对百分比误差(MAPE)分析表明,ChatGPT和Claude在重量(分别为36.3%和37.3%)和能量(均为35.8%)方面达到相似准确度水平。然而,对于碳水化合物,Claude显示显著较高误差(72.8%),而ChatGPT为47.9%。两个模型在蛋白质估算方面表现相似(60.7% vs 61.7%),而Claude在脂肪方面表现更好(41.7% vs 51.8%)。Gemini在所有营养素中 consistently 显示较高误差率,MAPE值从能量的64.2%到蛋白质的109.9%。

相关性分析显示模型估算值与参考值之间存在中度至强正相关关系。Claude达到最高总体相关性(r=0.72-0.81),ChatGPT紧随其后(r=0.65-0.77)。对于重量和能量含量,两个模型均显示强相关性(r>0.73),而宏量营养素的相关性略低。Gemini显示所有测量中最弱的相关性,特别是蛋白质(r=0.58)。

模型间直接比较显示,对于大多数营养素,ChatGPT和Claude在MAPE值上无统计学显著差异(p>0.15),除脂肪估算中Claude表现显著更好(p=0.04)。两个模型在重量、能量和蛋白质估算方面均显著优于Gemini(所有p<0.01)。模型间相关系数差异通常不显著,仅Gemini与其他模型间的特定比较有例外。

Bland-Altman分析揭示了不同的偏倚模式。Gemini显示重量(+64.6g)、能量(+65.0kcal)和其他营养素的显著正平均偏倚,而ChatGPT和Claude显示较小、不显著的偏倚(重量:分别为+7.5g和+6.1g)。系统性偏倚分析显示大多数模型-营养素组合存在显著负斜率,表明存在份量大小依赖性偏倚。

进一步分析份量大小效应发现,所有模型随着份量增加显示准确度下降。这一趋势在Bland-Altman图中最为明显,小份量(蓝色显示)通常聚集在零差异线附近,而大份量(绿色显示)表现出更大变异性 and 更极端低估。系统性偏倚斜率跨营养素和模型范围从-0.23到-0.50,ChatGPT显示碳水化合物最强份量依赖性(-0.45),Gemini显示蛋白质最强依赖性(-0.50)。相对准确度在小份量中 consistently 更好,MAPE值跨所有模型比大份量低约20-30%。

一些说明性例子值得提及。Gemini在一张图像中将沙拉三明治误认为肉丸,导致蛋白质高估360%,因这些食物的蛋白质密度 vastly 不同。类似地,Claude在一张图像中将炒蛋误认为面食,导致碳水化合物高估1788%,高度影响了Claude碳水化合物估算的MAPE。另一个例子是大量扁豆咖喱菜肴,ChatGPT估算重量255g,而实际重量480g,这影响了所有营养素的估算。

研究结论指出,这是首次系统评估多种大语言模型从不同份量食物图像中估算营养含量的性能。ChatGPT和Claude实现约36%的重量和能量估算MAPE值,而Gemini在所有营养素中显示 substantially 较高误差。

ChatGPT和Claude的相当性能表明实用效用阈值。它们的准确度与传统自报告方法一致,双标水验证显示能量摄入报告误差20-50%。与传统方法受回忆偏倚、社会期望效应和参与者负担影响不同,基于AI的估算独立于这些人为因素操作,为连续被动监测提供优势。

所有模型显示随着份量增加的一致低估,这对具有高能量需求的运动员群体特别相关。比较四项在体重稳定运动员中验证估计膳食记录与双标水的研究(补充表),平均绝对百分比误差为26.5% ± 16.8%(95% CI: 20.3%, 32.8%)。评估显示ChatGPT和Claude的MAPE为35.8%,Gemini为64.2%—表明前两个性能与传统方法相当,而Gemini产生明显较大误差。重要的是,基于AI的估算操作无用户负担或报告疲劳,为可扩展监测提供 promise。

AI模型展示固有输出变异性,相同提示词不一定返回相同响应,由于随机性。虽然引入不确定性,这使 multiple 分析生成置信区间。未来应用可能执行 multiple 推断报告范围而非点估计。临床应用可建立置信区间进行可靠性评估;研究应用可能平均推断同时提供不确定性测量。这为 nuanced 评估提供机会,承认固有不确定性。

最近研究确认AI对膳食评估的潜力,尽管从2D图像获取深度信息挑战仍然存在。负系统性偏倚斜率(-0.23至-0.50)表明模型难以随增加份量缩放估算。这一限制在设计中 pronounced,一致蔬菜放置在前面,同时标准化摄影,创建系统性偏倚随份量大小恶化。随着淀粉基础和蛋白质来源 positioned behind 蔬菜变得越来越 obscured 与较大份量,模型对主要卡路里贡献成分的视觉信息 progressively 减少。

宏量营养素估算证明具有挑战性。蛋白质估算超过60% MAPE,可能由于难以区分富含蛋白质成分或视觉估算密度。跨蛋白质来源的高变异性加剧这一点,正确识别动物与植物蛋白质导致 several-fold 差异,例证当Gemini误认沙拉三明治为肉丸时(360%蛋白质高估)。Claude的高碳水化合物MAPE(72.8%)由于误认炒蛋为面食(1788%高估),突出显示误识别如何 disproportionately 影响宏量营养素估算。

性能差异可能源于训练数据、架构和优化策略的变异性。Gemini的 consistently 较差性能可能反映较少广泛食物相关训练或不同多模态集成。ChatGPT和Claude的相似性能表明领先LLMs之间的收敛能力。

研究设计可通过精细提示增强。指导模型在计算体积前估算尺寸可能提高准确度。研究人员 deliberately 排除盘子/餐具尺寸以模拟真实世界场景,潜在限制准确度。最近研究证明复杂提示技术增强LLM营养准确度,包括链式思维进行体积估算或检索增强提示。提供情境信息可能帮助准确假设关于份量和制备。研究显示具有精心制作指令和适当情境的LLMs产生营养师标准解释。然而,方法确保模型比较中的方法学 rigor 并建立标准化条件下的基线能力。

与使用CNN训练用于食物识别的窄AI模型相比,LLMs提供独特优势利用环境线索和参考对象。它们的广泛训练使理解餐具、盘子和食物之间的情境关系,潜在提供更强大尺寸估算。然而,LMMs需要更多计算资源,防止本地操作并突出完整性问题,因为照片必须上传到数据中心。

中度至强相关性(r=0.58-0.81)表明合理相对准确度尽管有限绝对准确度,建议用于跟踪膳食模式的效用即使绝对值需要校准。误差一致性暗示系统性校正因子可能提高准确度,尽管这些需要份量大小依赖性。

所有评估模型代表2024年中 state-of-the-art。AI landscape 快速演化—OpenAI引入大型推理模型与o1,使用强化学习进行复杂推理通过链式思维过程。这些模型,发布 late 2024/early 2025,可能通过逐步视觉分析寻址系统性错误,分解复杂任务:识别食物、估算尺寸、计算体积、和应用营养数据库 systematically。

几个限制值得考虑:固定角度静态图像与多角度或视频;相对简单呈现与真实世界复杂混合物;标准配置无食物识别微调。领域特定知识和专门训练显著改进LLM食品科学性能。未来研究应探索深度传感技术、食物特定LLMs、或全面数据集微调。食物导向LLMs证明更好领域特定理解。结合AI与最小用户输入可能 substantially 提高准确度同时保持可行性。

演化景观提出标准化考虑。随着技术成熟,建立基准变得关键用于比较系统。研究提供受控评估框架用于未来精炼。

总之,当前通用LLMs显示 promise 用于膳食评估。ChatGPT和Claude证明性能接近传统方法无用户负担,建议作为筛选工具的效用。然而,大份量的系统性低估和高宏量营养素变异性表明不适用性用于需要精确量化的运动员群体中的精确评估。持续进步,特别是寻址份量大小挑战和潜在通过推理模型,仍然必要在AI基于评估革命化运动科学中的营养监测之前。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号