《The Journal of Prosthetic Dentistry》:Performance of AI chatbots in responding to geriatric patient questions on denture issues: A mixed method study of accuracy and empathy
编辑推荐:
人工智能在老年全牙固定患者中的准确性与同理心评估显示,Google Gemini在准确性上最优,而微软Copilot同理心得分最高,但两者均存在显著局限,准确性与同理心呈负相关。
Indumathi Sivakumar | Sivakumar Arunachalam | Praveen Gadde | Jitendra Sharan
马来西亚雪兰莪SEGi大学牙科学院副教授
摘要
问题陈述
人工智能(AI)聊天机器人越来越多地被用于健康信息提供,但它们的准确性以及表达同理心的能力仍存在不确定性,这可能导致寻求假牙的老年患者面临错误信息的风险,并降低他们的信任度。
研究目的
本研究的目的是评估广泛使用的AI聊天机器人在回答有关老年患者全口假牙问题时的准确性和同理心表现。
材料与方法
五个聊天机器人(ChatGPT GPT-3.5 [CG]、DeepSeek R1 [DS]、Claude 3.5 Sonnet [CD]、Google Gemini [GG] 和 Microsoft Copilot [MC])被询问了10个经过验证的与假牙相关的问题。五位修复牙科医生使用经过验证的量表独立评估了聊天机器人的回答在准确性和同理心方面的表现。统计分析用于评估不同平台之间聊天机器人在准确性和同理心方面的差异,并探讨它们之间的相互关系(α=.05)。通过开放式评价者的评论收集了定性数据,并采用主题编码方法进行分析。
结果
在不同平台上,聊天机器人在准确性和同理心方面都存在统计学上的显著差异。Google Gemini(GG)在准确性方面表现出最高的整体均值(3.3 ±0.50),显著优于Microsoft Copilot(MC,其准确率为2.5 ±0.58;P<.001)。从定性角度来看,GG因提供全面的细节而受到好评,而MC和CD则常因过于简洁而受到批评。在同理心方面,MC获得了最高的同理心响应比例(52%),其整体同理心得分也最高(1.52 ±0.50),而ChatGPT(CG)的得分最低(1.24 ±0.47;P=.003)。然而,没有一个聊天机器人能够始终表现出高度的同理心。研究发现准确性和同理心之间存在统计学上的负相关(r=–0.152,P=.016),表明较高的准确性与较低的同理心水平存在一定关联。定性分析进一步强调了基于文本的AI在传递真实同理心方面的局限性。
结论
当前AI聊天机器人在老年人口腔健康护理中的回答在准确性和同理心方面存在显著的变异性和不一致性。
材料与方法
这项横断面比较研究得到了SEGi大学机构审查委员会的批准(豁免状态),通过结合定量评估和定性访谈的方法,评估了5个基于AI的聊天机器人对常见假牙相关问题的回答的准确性和同理心表现。选择了五个商业上可用的AI平台进行评估:ChatGPT GPT-3.5(CG)、DeepSeek R1(DS)等。
结果
基于准确性的AI回答的描述性分类显示,不同平台之间存在统计学上的显著差异(P<.05)(图2A)。Google Gemini(GG)的“全面”回答比例最高(32%),而“包含正确和错误/过时信息”的回答比例最低(2%)。相比之下,DeepSeek R1(DS)的此类回答比例最高(60%),其次是Microsoft Copilot(MC,54%)。
讨论
AI聊天机器人正迅速融入医疗沟通中,为患者提供了即时信息获取的便利。虽然AI聊天机器人有助于患者教育和信息提供,但它们的可靠性并不保证,尤其是在信任、情境和个人化因素至关重要的患者群体中。为了更好地理解这些影响以及AI在患者主动寻求信息行为中的现状,开展了本研究。
结论
根据本研究的结果,得出以下结论:
1. Google Gemini(GG)的准确性最高,而Microsoft Copilot(MC)的准确性最低。
2. 准确性和同理心之间存在负相关,这意味着精确的回答往往缺乏支持性的语气。
3. 定性研究结果强调了基于文本的聊天机器人在传递真实同理心方面的局限性,因为它们缺乏非语言线索。
4. 尽管这些工具对老年人来说是一种可用的资源,但其在临床应用中的效果仍有待进一步验证。
关于手稿准备过程中生成式AI和AI辅助技术的声明
在准备本作品的过程中,作者使用了ChatGPT-5来检查语言和语法。使用该工具/服务后,作者对内容进行了必要的审阅和编辑,并对已发表文章的内容负全责。
作者贡献声明
Indumathi Sivakumar:概念构建、方法论设计、初稿撰写、数据分析。
Sivakumar Arunachalam:方法论设计、初稿撰写、数据分析。
Praveen Gadde:数据分析、数据解读、审稿与编辑。
Jitendra Sharan:审稿与编辑。