
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(ChatGPT-4、DeepSeek与Gemini)在读写障碍与计算障碍问答中的质量、实用性及可靠性评估
【字体: 大 中 小 】 时间:2025年06月13日 来源:Psychiatric Quarterly 2.7
编辑推荐:
来自多领域的研究人员针对特定学习障碍(SLDs)信息获取的准确性需求,评估了ChatGPT-4、DeepSeek和Gemini三大语言模型在读写障碍(dyslexia)与计算障碍(dyscalculia)问答中的表现。通过专家设计的30项问题及GQS量表、七级Likert量表分析,发现模型间质量与实用性无显著差异,但ChatGPT-4在计算障碍回答中可靠性更优(p<0.05),DeepSeek则对读写障碍实现100%最高可靠性评分。研究为LLMs作为辅助教育工具的潜力提供了实证依据,强调专业验证的必要性。
这项研究系统评估了三种主流大型语言模型(LLMs)——ChatGPT-4、DeepSeek和Gemini在解答特定学习障碍(SLDs)相关问题的表现,重点关注读写障碍(dyslexia)和计算障碍(dyscalculia)两大亚型。研究团队通过整合社交媒体、专业论坛及临床专家意见,为每种障碍精心设计15道测试问题,并采用全球质量量表(GQS)和七级Likert量表对模型回答的质量、实用性和可靠性进行量化评分。
统计分析显示,三大模型在回答质量(GQS均值:读写障碍4.20-4.60,计算障碍3.93-4.53)和实用性方面未呈现显著差异。但可靠性表现存在特异性:ChatGPT-4在计算障碍领域显著优于其他模型(p值
<0.05),而DeepSeek在读写障碍问答中斩获100%满分可靠性评级,远超GPT-4和Gemini(60%)。值得注意的是,尽管所有模型均能生成高质量回答,其实用性仍存在波动。
该研究揭示了LLMs作为神经发育障碍科普工具的潜力,特别是GPT-4在计算障碍领域的稳定表现,为数字化教育辅助方案提供了新思路。不过研究者强调,专业医疗人员的复核仍是确保信息准确性的关键环节。
生物通微信公众号
知名企业招聘