生成式AI在健康信息传播中的证据评估:基于横断面研究的用户提示优化与质量提升

【字体: 时间:2025年06月10日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对生成式AI(如ChatGPT、Gemini等大型语言模型LLMs)在健康信息传播中的可靠性问题,通过系统评估发现当前LLMs无法满足循证健康沟通标准(如MAPPinfo和ebmNucleus评估工具要求)。研究人员通过双阶段研究(n=300)证实:用户提示的专业程度显著影响输出质量,而简单的"OARS规则"行为干预可提升信息准确率。该成果发表于《npj Digital Medicine》,为AI健康应用的优化设计提供了实证依据。

  

在数字健康时代,大型语言模型(LLMs)已成为公众获取医疗信息的新兴渠道。然而,这些生成式AI工具是否能够提供符合循证医学标准的健康建议?德国研究团队在《npj Digital Medicine》发表的最新研究揭示了令人担忧的现状:即使是最先进的LLMs,其生成的乳腺癌(BC)和前列腺癌(PC)筛查建议中,仅有不足50%符合国际公认的GPHI(良好健康信息实践工作组)标准。

这项由Felix G. Rebitschek领衔的研究采用创新性的双阶段设计。研究1通过2160次系统化API调用,测试了ChatGPT(gpt-3.5-turbo)、Gemini(1.5-Flash)和Le Chat(mistral-large-2402)对乳腺X光摄影和PSA检测等筛查技术的描述质量。研究2则招募300名普通用户进行人机交互实验,首次验证了"OARS规则"(询问选项Options、优势Advantages、风险Risks及稳定性Steady)这一行为干预的有效性。

关键技术方法包括:1)基于MAPPinfo(健康信息质量评估工具)和ebmNucleus(循证健康沟通评估方案)的双盲评分系统;2)三层次提示设计(高/中/低信息量);3)通过Prolific平台招募具有人口学代表性的受试者;4)采用SoSci Survey实现LLM接口的随机化分配。

研究结果
LLMs的循证缺陷
评估显示,所有模型在控制条件下的平均得分仅达MAPPinfo满分标准的17%。即使是研究者设计的高信息量提示,ChatGPT和Gemini的最佳表现仍不足50%达标率,仅Le Chat相对较好。典型问题包括:63%的回答未提供筛查获益的绝对数值,81%忽略证据质量分级。

提示工程的杠杆效应
系统提示优化使ebmNucleus评分提升75%(F(2,351)=528.41, p<0.001, ηp
2
=0.75)。如图1所示,要求"解释参考条件"的专业提示,较之模糊提问可使风险沟通质量提高3.2倍。

行为干预的改善作用
"OARS规则"简单提示使普通用户获取的信息质量提升40%(F(1,294)=12.12, p=0.001)。如图2所示,干预组在关键指标如"患者相关获益危害陈述"上的达标率从13%提升至18%。

讨论与展望
该研究首次证实LLMs在健康传播中存在系统性缺陷,其输出质量高度依赖用户提问方式。虽然简单行为干预可部分改善这一问题,但根本解决需要多方协同:开发者需将循证框架(如GPHI指南)嵌入模型架构;医疗机构应开展"健康提示工程"培训;监管机构需建立类似MAPPinfo的AI输出评估标准。

值得注意的是,研究发现了"数字健康悖论"现象:频繁使用LLMs查询健康信息的用户(占比31.7%)反而获得更低质量的内容(β=-0.25, p=0.009),这提示盲目依赖AI可能加剧健康不平等。未来研究应探索实时检索机制对证据更新的影响,以及多轮对话中信息质量的演变规律。

这项研究为正在制定的《AI健康沟通伦理指南》提供了关键证据,强调必须明确告知用户LLMs的局限性。正如作者指出:"当算法无法达到循证医学标准时,透明化其缺陷本身就是一种伦理实践。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号