
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT与Bard在医学沟通中的可读性比较:一项揭示AI生成文本适用性的荟萃分析
【字体: 大 中 小 】 时间:2025年09月04日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究通过系统评价59项研究(2342个数据项),首次采用荟萃分析方法比较ChatGPT-3.5/4.0与Bard/Gemini在医学文本生成与简化任务中的可读性差异。结果显示,Bard/Gemini自发生成文本的FRE(Flesch Reading Ease Score)显著优于ChatGPT(MD:-10.36,p<0.01),而FKGL(Flesch Kincaid Grade Level)分析显示ChatGPT在文本简化任务中表现更佳(MD:-1.59,p=0.05)。该研究为AI辅助医疗沟通的算法优化提供了循证依据,尤其对患者教育材料的开发具有指导价值。
在数字化医疗时代,患者教育材料的可读性直接影响健康信息的有效传递。然而令人惊讶的是,传统人工撰写的医疗文本中仅有2.1%能达到美国医学会推荐的6年级阅读水平。随着ChatGPT和Bard等大型语言模型(LLM)的爆发式应用,这些AI工具能否解决这一"医学沟通鸿沟"成为亟待回答的问题。2025年发表于《BMC Medical Informatics and Decision Making》的这项开创性研究,首次通过系统评价与荟萃分析,揭开了不同AI模型在医学文本处理中的真实表现。
研究团队采用创新的LLM-DBC(基于Downs-and-Black清单改良的质量评估工具)对59项研究进行严格筛选,最终纳入2342个数据项。通过双盲文献检索策略,覆盖PubMed、Scopus等六大数据库,并运用REML(限制性最大似然)模型处理高度异质性数据(I2>90%)。研究特别区分了文本生成(57项)与文本简化(7项)两类任务,分别以FRE和FKGL作为核心评估指标。
主要技术方法
多数据库系统检索策略(PubMed/Ovid/Web-of-Science等)
改良LLM-DBC质量评估工具(8项指标,最高8分)
REML随机效应模型处理异质性数据
亚组分析(ChatGPT-3.5/4.0 vs Bard/Gemini)
Egger's检验评估发表偏倚
研究结果
文本简化表现
在将专业医学文本转化为通俗语言的任务中,ChatGPT展现出微妙优势。FKGL分析显示,ChatGPT简化文本的阅读难度比Bard低1.59个年级水平(95%CI:-3.15~-0.04),尤其在ChatGPT-4.0与Bard对比亚组中,这种趋势更为明显(MD:-1.68)。研究者推测这可能与ChatGPT算法对FKGL公式的潜在优化有关。

文本生成差异
Bard/Gemini在自发生成医学信息时展现出显著优势:
FRE评分平均高出10.36分(相当于1个年级阅读水平)
在ChatGPT-3.5 vs Bard亚组中差异最大(MD:-16.07)
研究者认为这可能源于Bard的实时网络访问功能,而ChatGPT-4.0虽经RLHF(基于人类反馈的强化学习)训练优化可靠性,却可能牺牲了部分可读性。
质量与偏倚分析
纳入研究的平均质量评分为6/8(FRE)和7/8(FKGL),主要失分点在统计方法报告不足。Egger's检验显示文本生成研究存在显著发表偏倚(p<0.01),提示可能存在未发表的阴性结果。
结论与展望
这项研究首次量化评估了主流AI模型在医学沟通中的表现差异:Bard/Gemini更适合生成即时应答(如患者咨询),而ChatGPT在文本简化任务中略胜一筹。但令人深思的是,所有AI生成文本的FRE均值(21.31-76.9)仍低于推荐的80-90分患者友好区间,这反映出当前AI医疗沟通工具仍有巨大改进空间。
研究建议建立AI生成医疗文本的标准化报告体系,包括:
强制披露使用的LLM版本和提示词
创建医疗AI输出注册数据库
开发结合FRE/FKGL的双重评估框架
这些发现不仅为临床医生选择AI辅助工具提供证据,更揭示了医疗AI发展必须跨越的"可读性鸿沟"。未来研究需要进一步探索算法优化方向,特别是在保持医学准确性的同时提升语言通俗性,最终实现真正的"患者友好型AI医疗沟通"。

该研究的局限性在于仅分析英语文献,且未评估内容准确性。正如作者Daphne E. DeTemple和Timo C. Meine*强调的,下一步需要开展"真实世界目标读者评估",将AI生成材料直接交由患者群体测试理解度,这将是突破当前实验室评估局限的关键。
生物通微信公众号
知名企业招聘