
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人工智能的肠易激综合征患者教育模型效能评估:ChatGPT-4与Gemini-1的对比研究
【字体: 大 中 小 】 时间:2025年09月21日 来源:Indian Journal of Gastroenterology 2.1
编辑推荐:
本研究针对肠易激综合征(IBS)患者教育不足的现状,由研究人员开展大型语言模型(LLM)应答效能对比研究。结果显示:Gemini-1在综合准确性达94.9%,ChatGPT-4为89.7%(p=0.67),两者均需改善可读性(FRE<40)并提升共情水平,为AI辅助医疗教育提供优化方向。
在肠易激综合征(Irritable Bowel Syndrome, IBS)这一常见功能性胃肠疾病领域,患者教育始终面临重大挑战。尽管医学不断进步,但关于IBS的科普工作仍存在明显不足。为此,研究人员开展了一项创新性研究,对比两种大型语言模型(Large Language Model, LLM)——ChatGPT-4和Gemini-1在回答IBS相关患者咨询时的表现。
研究团队从专业IBS组织和医院网站收集了39个高频问题(FAQ),并将其分为六大类别:基础认知、症状与诊断、致病因素、饮食建议、治疗方案以及生活方式。两位独立的消化科专家对模型的回复进行了双盲评估,重点考察内容的完整性和准确性,遇到分歧时则由第三位资深研究员仲裁。此外,团队采用五种国际通用指标——弗莱士易读性指数(Flesch Reading Ease, FRE)、SMOG复杂度指标、甘宁雾化指数(Gunning Fog Index, GFI)、自动可读性指标(Automated Readability Index, ARI)以及阅读水平共识(Reading Level Consensus, ARC)来量化文本可读性,同时由三位评审通过4级李克特量表评价回答的共情程度。
研究结果令人振奋:Gemini-1模型在94.9%(37/39)的问题上给出了全面而准确的解答,仅有两个回答被判定为模糊或过时;ChatGPT-4则达到89.7%(35/39)的全面性,有四个回答存在瑕疵。从领域表现来看,两款模型在"症状与诊断"和"治疗"方面表现最为出色,而在"基础认知"和"生活方式"领域则更容易出现不完美回答。统计显示两者在综合准确性上并无显著差异(p=0.67)。可读性测试表明,两款模型生成的内容都偏向艰深:Gemini的FRE得分为35.83±3.31,ChatGPT为32.33±5.57(p=0.21),相当于大学阅读水平。在情感表达方面,ChatGPT展现出更强共情力,所有回答均获评"中等共情";而Gemini-1则有66.7%的回答被评为"最低共情"。
研究表明,虽然ChatGPT和Gemini都能提供丰富的IBS相关信息,但其存在的局限性——如语言复杂度较高和偶发性误差——仍需重视。未来优化应聚焦于提升文本可读性、加强语境相关性和保证信息准确性,从而更好地满足患者和临床工作者的多样化需求。
生物通微信公众号
知名企业招聘