能通过美国眼科委员会评估的两个人工智能Google Gemini和Bard,表现如何?

【字体: 时间:2024年04月18日 来源:news-medical

编辑推荐:

  在最近发表在《Eye》杂志上的一项研究中,来自加拿大的研究人员评估了两个人工智能(AI)聊天机器人谷歌双子座(Google Gemini)和巴德(Bard)在眼科委员会眼科知识评估中的表现。两种工具在答案上都达到了可接受的准确性,表现良好。

  


ChatGPT(聊天生成预训练转换器的缩写)、Bard和Gemini等人工智能聊天机器人越来越多地用于医疗环境。ChatGPT-3.5在AMBOSS和NBME (National Board Medical Examination的缩写)考试的第一步和第二步的准确率高达64%,ChatGPT-4等新版本的性能有所提高。在这项新研究中,研究人员评估了Google Gemini和Bard在一组为眼科委员会认证考试设计的练习题中的表现。150个基于文本的多项选择题来自眼科专业医疗人员的教育平台“EyeQuiz”。该门户网站提供各种考试的练习题,包括眼科知识评估计划(OKAP),国家委员会考试,如美国眼科委员会(ABO)考试,以及某些研究生考试。这些问题是人工分类的,数据收集分别使用截至2023年11月30日和12月28日的Bard和Gemini版本。对两种工具的准确性、解释的提供、响应时间和问题长度进行了评估。次要分析包括评估在美国以外的国家(包括越南、巴西和荷兰)使用虚拟专用网络(vpn)的性能。Bard和Gemini提供基于不同文化和语言培训的回答,可能会针对特定国家定制信息。

Bard和Gemini迅速而一致地回答了所有150个问题,没有出现高需求。在使用美国版本的初步分析中,Bard的反应时间为7.1±2.7秒,而Gemini的反应时间为7.1±2.8秒,平均反应时间更长。Bard和Gemini的准确率都达到了71%,正确回答了150个问题中的106个。巴德为86%的回答提供了解释,而Gemini为所有回答提供了解释。Bard在眼窝和整形手术方面表现最好,而Gemini在普通眼科、眼窝和整形手术、青光眼和葡萄膜炎方面表现优异。然而,这两种工具在白内障和晶状体手术和屈光手术类别中都表现不佳。

在与越南版的Bard的二次分析中,聊天机器人回答了67%的问题,与美国版相似,然而使用越南版Bard在21%的问题中得到了不同的答案选择?!对于越南版的Gemini,74%的问题被正确回答,与美国版本相似,但有15%的问题在答案选择上存在差异。在这两种情况下,美国版回答错误的一些问题被越南版正确回答,反之亦然。

越南版本的Bard和双子座分别解释了86%和100%的答案。Bard在视网膜、玻璃体、眼窝和整形手术方面表现最好(准确率为80%),而Gemini在角膜和外部疾病、普通眼科和青光眼方面表现更好(准确率均为87%)。Bard在白内障和晶状体方面最困难(准确率为40%),而Gemini在儿童眼科和斜视方面面临挑战(准确率为60%)。Gemini在巴西和荷兰的表现相对不如美国和越南的版本。

美国和越南的Bard和Gemini的迭代在眼科实践问题上都表现出令人满意的表现,研究强调了与用户位置相关的潜在反应差异,未来跟踪人工智能聊天机器人增强的评估,以及眼科住院医生和人工智能聊天机器人之间的比较,可以为它们的功效和可靠性提供有价值的见解。但该研究的局限性包括问题样本量小,依赖于可公开访问的题库,未探索用户提示的影响,以及互联网速度,网站流量对响应时间的影响,以及聊天机器人偶尔提供的错误解释。未来的研究可以探索聊天机器人解释眼科图像的能力,这方面的研究相对来说还没有得到充分的探索。另外,不同地区的回答存在差异,需要进一步研究以确保一致性,特别是在准确性等对患者安全至关重要的医疗应用中。





相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号