基于人工智能的肠易激综合征患者教育模型效能评估：ChatGPT-4与Gemini-1的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月21日 来源：Indian Journal of Gastroenterology 2.1

编辑推荐：

　　本研究针对肠易激综合征(IBS)患者教育不足的现状，由研究人员开展大型语言模型(LLM)应答效能对比研究。结果显示：Gemini-1在综合准确性达94.9%，ChatGPT-4为89.7%(p=0.67)，两者均需改善可读性(FRE<40)并提升共情水平，为AI辅助医疗教育提供优化方向。

在肠易激综合征(Irritable Bowel Syndrome, IBS)这一常见功能性胃肠疾病领域，患者教育始终面临重大挑战。尽管医学不断进步，但关于IBS的科普工作仍存在明显不足。为此，研究人员开展了一项创新性研究，对比两种大型语言模型(Large Language Model, LLM)——ChatGPT-4和Gemini-1在回答IBS相关患者咨询时的表现。

研究团队从专业IBS组织和医院网站收集了39个高频问题(FAQ)，并将其分为六大类别：基础认知、症状与诊断、致病因素、饮食建议、治疗方案以及生活方式。两位独立的消化科专家对模型的回复进行了双盲评估，重点考察内容的完整性和准确性，遇到分歧时则由第三位资深研究员仲裁。此外，团队采用五种国际通用指标——弗莱士易读性指数(Flesch Reading Ease, FRE)、SMOG复杂度指标、甘宁雾化指数(Gunning Fog Index, GFI)、自动可读性指标(Automated Readability Index, ARI)以及阅读水平共识(Reading Level Consensus, ARC)来量化文本可读性，同时由三位评审通过4级李克特量表评价回答的共情程度。

研究结果令人振奋：Gemini-1模型在94.9%（37/39）的问题上给出了全面而准确的解答，仅有两个回答被判定为模糊或过时；ChatGPT-4则达到89.7%（35/39）的全面性，有四个回答存在瑕疵。从领域表现来看，两款模型在"症状与诊断"和"治疗"方面表现最为出色，而在"基础认知"和"生活方式"领域则更容易出现不完美回答。统计显示两者在综合准确性上并无显著差异(p=0.67)。可读性测试表明，两款模型生成的内容都偏向艰深：Gemini的FRE得分为35.83±3.31，ChatGPT为32.33±5.57(p=0.21)，相当于大学阅读水平。在情感表达方面，ChatGPT展现出更强共情力，所有回答均获评"中等共情"；而Gemini-1则有66.7%的回答被评为"最低共情"。

研究表明，虽然ChatGPT和Gemini都能提供丰富的IBS相关信息，但其存在的局限性——如语言复杂度较高和偶发性误差——仍需重视。未来优化应聚焦于提升文本可读性、加强语境相关性和保证信息准确性，从而更好地满足患者和临床工作者的多样化需求。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号