
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能聊天机器人在回答与脑电图相关问题方面的比较评估
《Epileptic Disorders》:Comparative evaluation of artificial intelligence chatbots in answering electroencephalography-related questions
【字体: 大 中 小 】 时间:2025年12月17日 来源:Epileptic Disorders 2.7
编辑推荐:
本研究比较了ChatGPT、Copilot和Gemini三个LLM在EEG相关问答的准确性、完整性和可读性,并评估了临床神经生理学领域评判者的协议一致性。结果显示,ChatGPT在准确性和完整性上最优,但可读性最低;评判者间协议一致性因角色不同而存在差异。
随着大型语言模型(LLMs)的普及,它们可以用来向非专业人士解释复杂的脑电图(EEG)概念。本研究旨在比较三种基于LLM的聊天机器人在回答与EEG相关问题时的准确性、完整性和可读性,并评估评分者之间的共识程度。
我们向ChatGPT、Copilot和Gemini输入了100个涵盖10个EEG类别的问题。来自临床神经生理学领域的六名评分者(两名医生、两名教师和两名技术人员)对这些回答进行了评估。准确性采用6分制进行评分,完整性采用3分制进行评分,可读性则通过自动可读性指数(ARI)进行评估。我们使用重复测量方差分析(ANOVA)来分析各组之间的准确性差异和可读性差异,使用组内相关系数(ICC)来评估评分者之间的可靠性,并使用包含聊天机器人和评分者作为因素的双因素方差分析来分析完整性差异。
ChatGPT的总准确率显著高于Copilot(平均值±标准差:4.54±0.05)和Gemini(平均值±标准差:4.16±0.13)(p<0.001)。ChatGPT在“正常变异和意义不明确的脑电图模式”方面的表现最差(平均值±标准差:3.10±0.14),而Copilot和Gemini在“癫痫发作期间的脑电图模式”方面的表现最差(平均值±标准差分别为2.93±0.11和3.37±0.24)。尽管医生(ICC=0.969)和教师(ICC=0.926)在准确性方面的评分者共识度很高,但技术人员的共识度在某些EEG类别中较低。ChatGPT在完整性方面的得分显著高于Copilot(p<0.001)和Gemini(p=0.01)。ChatGPT的文本可读性指数(ARI)低于Copilot(ARI=11.14±2.60,p<0.001)和Gemini(ARI=14.16±3.33)。
聊天机器人在准确性方面取得了相对较高的成绩,但仍然存在一些缺陷,这表明所提供的信息需要进一步验证。ChatGPT在准确性和完整性方面优于其他聊天机器人,但牺牲了可读性。技术人员之间较低的共识度可能反映了标准化培训或实践经验的差距,这可能会影响对EEG相关内容评估的一致性。
所有作者均无需要披露的利益冲突。
支持本研究所有发现的数据已作为补充材料与手稿一起提交。
生物通微信公众号
知名企业招聘