《Diabetes Research and Clinical Practice》:Chat, Gemini and Claude at the dinner table: assessing general-purpose AI tools for carbohydrate counting in the context of type 1 diabetes
编辑推荐:
本研究评估了ChatGPT、Gemini和Claude在估算餐点碳水化合物含量上的准确性,并与专家营养师比较。结果显示,AI工具的绝对误差均高于专家,Gemini的过估计率达38%,显著高于其他工具和专家。结论指出,AI工具可作为辅助手段,但不能替代结构化教育以管理1型糖尿病患者的碳水化合物计数。
Sandra Goncalves|Céline Coelho|Lysiane Pretre|Camille Roussillon|Marlène Jarlot|Catherine Ducloux|Alfred Penfornis|Coralie Amadou
法国科贝伊-埃松讷Sud-Francilien医院内分泌学与糖尿病科,Serge Dassault大道40号,邮编91100
摘要
目的
对于1型糖尿病患者(T1D)来说,计算碳水化合物的摄入量是一项日常挑战。虽然有专门的应用程序,但一些患者现在使用通用的人工智能(AI)工具,尽管这些工具的准确性尚不确定。我们评估了ChatGPT、Gemini和Claude与专业营养师相比的表现。
方法
六名受过培训的营养师亲自评估了30种不同类型和复杂度的餐食,并使用标准化提示对餐食进行了拍照,以便AI进行估算。主要结果是绝对误差与参考碳水化合物含量的对比;次要结果是大幅高估的比例(≥+20克),这可能导致胰岛素过量使用。应用了线性混合效应回归模型和逻辑混合效应回归模型,其中餐食被视为随机效应。
结果
营养师的平均绝对误差为13±10克,ChatGPT为20±18克,Gemini为28±26克,Claude为23±21克。Gemini和Claude的误差显著更高,而ChatGPT的误差较低。在专家的估算中,大幅高估的比例分别为3%(ChatGPT)、17%(Claude)和38%(Gemini)。误差与餐食类型或复杂性无关。
结论
通用AI工具可以提供碳水化合物的估算,但其准确性存在差异。它们可以补充而非替代1型糖尿病管理的结构化教育。
引言
碳水化合物的计数是1型糖尿病患者(T1D)强化胰岛素治疗的关键组成部分,与代谢控制呈正相关[1]。然而,准确估算餐食中的碳水化合物含量仍然是一个重大的日常挑战,且误差很常见。虽然这种不准确性可能导致长期血糖控制不佳,但更紧迫的问题是急性并发症的风险,尤其是低血糖[1,2]。尽管没有正式的建议定义可接受的误差范围,但在临床实践中通常认为±20克的误差是可以接受的。重要的是,误差的方向也很重要:低估通常问题较小,特别是在自动胰岛素输送(AID)系统的背景下,该系统可以通过适应性胰岛素调节来减轻影响[3]。相比之下,大幅高估可能导致胰岛素过量使用,增加餐后低血糖的风险。
然而,持续的低估仍然值得关注,尤其是当它反映了系统性的或行为模式时。已经确定了几个影响有效碳水化合物计数的障碍,包括获得糖尿病教育的机会有限以及社会经济限制[4]。因此,一些1型糖尿病患者可能由于知识不足或对低血糖的恐惧而持续低估他们的碳水化合物摄入量。我们部门最近的一项研究支持了这一点,该研究涉及使用AID系统的1型糖尿病患者,发现他们的平均每日碳水化合物摄入量仅为110克,远低于一般人群估计的平均摄入量250克[5,6]。
人工智能(AI)工具可以通过协助估算碳水化合物、促进与餐食相关的决策以及鼓励更一致地使用胰岛素剂量来提供重要支持。为此目的专门开发了几款智能手机应用程序,尽管其准确性会因食物类型、份量大小、光照条件和用户界面而有所不同[7,8]。最近,一些糖尿病患者开始使用通用AI工具(如ChatGPT)来估算碳水化合物含量,尽管这些工具并非最初为此用途设计或经过临床验证。因此,它们在碳水化合物计数方面的表现仍然很大程度上未被探索。迄今为止,只有一项已发表的研究探讨了ChatGPT从餐食照片中估算营养成分的准确性[9]。结果显示估算的碳水化合物含量与实际含量之间存在中等程度的相关性,脂肪和蛋白质的估算相关性更好。然而,估算结果可能因提示和设置而有所不同,这引发了关于可重复性的担忧。此外,评估其他流行的通用AI工具也将是有意义的。
这项探索性研究的目的是评估三种通用AI工具(ChatGPT、Gemini、Claude)在估算餐食碳水化合物含量方面的可靠性,并在1型糖尿病管理的特定背景下解释研究结果。在一组30种不同类型和复杂度的餐食中,我们比较了已知参考值(金标准)与AI工具和一组受过碳水化合物计数及1型糖尿病教育培训的医疗专业人员(专家组)生成的估算值之间的绝对(无符号)误差。次要目标是比较误差超过+20克的估算比例,这可能导致胰岛素过量使用。最后,我们研究了估算准确性是否因餐食类型或复杂性而有所不同。
餐食的选择、准备和呈现
该研究于2025年6月至8月在法国科贝伊-埃松讷的Sud-Francilien医院糖尿病科进行。六名经验丰富的营养师(S.G.、C.C.、L.P.、C.R.、M.J.、C.D.)共同制定了30种代表常见饮食习惯的餐食,范围从自制餐食到工业预制餐食。
餐食类型和复杂性由营养师团队预先定义。
结果
在分析的30种餐食中,18种(60%)是午餐或晚餐,6种(20%)是早餐,6种(20%)是零食。从复杂性来看,5种(17%)餐食被归类为低复杂性,15种(50%)为中等复杂性,10种(33%)为高复杂性。平均(±标准差)参考碳水化合物含量为68±27克,范围从28克到137克。
所有AI工具均成功处理了餐食图片,无需额外信息,除了第18餐(土豆泥和香肠)。
讨论
碳水化合物的计数是1型糖尿病患者强化胰岛素治疗的基石,但在日常实践中准确估算餐食中的碳水化合物含量仍然是一个持续的挑战。尽管缺乏针对此类用途的临床验证,但通用AI工具在糖尿病患者中的使用越来越流行。我们旨在评估三种广泛可用的AI模型(ChatGPT、Gemini和Claude)在从餐食照片中估算碳水化合物含量方面的可靠性。
资金和协助
这项在Sud-Francilien医院糖尿病科进行的研究没有特定的资金支持。
CRediT作者贡献声明
Sandra Goncalves:概念构思、研究、方法论、初稿撰写、审稿与编辑。
Céline Coelho:研究。
Lysiane Pretre:研究。
Camille Roussillon:研究。
Marlène Jarlot:研究。
Catherine Ducloux:研究。
Alfred Penfornis:方法论、审稿与编辑。
Coralie Amadou:数据整理、正式分析、方法论、监督、初稿撰写、审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。