能通过美国眼科委员会评估的两个人工智能Google Gemini和Bard，表现如何？

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年04月18日 来源：news-medical

编辑推荐：

　　在最近发表在《Eye》杂志上的一项研究中，来自加拿大的研究人员评估了两个人工智能(AI)聊天机器人谷歌双子座(Google Gemini)和巴德(Bard)在眼科委员会眼科知识评估中的表现。两种工具在答案上都达到了可接受的准确性，表现良好。

ChatGPT(聊天生成预训练转换器的缩写)、Bard和Gemini等人工智能聊天机器人越来越多地用于医疗环境。ChatGPT-3.5在AMBOSS和NBME (National Board Medical Examination的缩写)考试的第一步和第二步的准确率高达64%，ChatGPT-4等新版本的性能有所提高。在这项新研究中，研究人员评估了Google Gemini和Bard在一组为眼科委员会认证考试设计的练习题中的表现。150个基于文本的多项选择题来自眼科专业医疗人员的教育平台“EyeQuiz”。该门户网站提供各种考试的练习题，包括眼科知识评估计划(OKAP)，国家委员会考试，如美国眼科委员会(ABO)考试，以及某些研究生考试。这些问题是人工分类的，数据收集分别使用截至2023年11月30日和12月28日的Bard和Gemini版本。对两种工具的准确性、解释的提供、响应时间和问题长度进行了评估。次要分析包括评估在美国以外的国家(包括越南、巴西和荷兰)使用虚拟专用网络(vpn)的性能。Bard和Gemini提供基于不同文化和语言培训的回答，可能会针对特定国家定制信息。

Bard和Gemini迅速而一致地回答了所有150个问题，没有出现高需求。在使用美国版本的初步分析中，Bard的反应时间为7.1±2.7秒，而Gemini的反应时间为7.1±2.8秒，平均反应时间更长。Bard和Gemini的准确率都达到了71%，正确回答了150个问题中的106个。巴德为86%的回答提供了解释，而Gemini为所有回答提供了解释。Bard在眼窝和整形手术方面表现最好，而Gemini在普通眼科、眼窝和整形手术、青光眼和葡萄膜炎方面表现优异。然而，这两种工具在白内障和晶状体手术和屈光手术类别中都表现不佳。

在与越南版的Bard的二次分析中，聊天机器人回答了67%的问题，与美国版相似，然而使用越南版Bard在21%的问题中得到了不同的答案选择？！对于越南版的Gemini，74%的问题被正确回答，与美国版本相似，但有15%的问题在答案选择上存在差异。在这两种情况下，美国版回答错误的一些问题被越南版正确回答，反之亦然。

越南版本的Bard和双子座分别解释了86%和100%的答案。Bard在视网膜、玻璃体、眼窝和整形手术方面表现最好(准确率为80%)，而Gemini在角膜和外部疾病、普通眼科和青光眼方面表现更好(准确率均为87%)。Bard在白内障和晶状体方面最困难(准确率为40%)，而Gemini在儿童眼科和斜视方面面临挑战(准确率为60%)。Gemini在巴西和荷兰的表现相对不如美国和越南的版本。

美国和越南的Bard和Gemini的迭代在眼科实践问题上都表现出令人满意的表现，研究强调了与用户位置相关的潜在反应差异，未来跟踪人工智能聊天机器人增强的评估，以及眼科住院医生和人工智能聊天机器人之间的比较，可以为它们的功效和可靠性提供有价值的见解。但该研究的局限性包括问题样本量小，依赖于可公开访问的题库，未探索用户提示的影响，以及互联网速度，网站流量对响应时间的影响，以及聊天机器人偶尔提供的错误解释。未来的研究可以探索聊天机器人解释眼科图像的能力，这方面的研究相对来说还没有得到充分的探索。另外，不同地区的回答存在差异，需要进一步研究以确保一致性，特别是在准确性等对患者安全至关重要的医疗应用中。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号