编辑推荐:
为评估 AI 在解答医疗问题中的表现,研究人员针对硬膜外类固醇注射(ESIs)相关的 29 个常见患者问题,对比 ChatGPT 对一般性和特定性提问的回答。发现一般性提问回答更准确、清晰,但共情不足,提示需优化提示设计以推动 AI 在疼痛管理中的应用。
在医疗技术飞速发展的当下,人工智能(AI)正深刻改变着 healthcare 的各个领域。大语言模型(LLMs)如 ChatGPT 凭借强大的自然语言处理能力,日益成为患者获取医学信息的重要渠道。然而,尽管 AI 在医疗信息检索与初步解答中展现出潜力,其在专业医疗场景中的准确性、适用性和人性化表达仍存疑。尤其在介入性疼痛治疗领域,如硬膜外类固醇注射(ESIs)这类常见但涉及复杂围手术期管理的操作,患者常面临术后并发症、恢复注意事项等疑问,而 AI 能否可靠地解答这些问题,对临床实践和患者安全至关重要。目前,尚未有研究专门探讨 AI 在处理 ESIs 相关患者疑问中的表现,这一空白亟待填补。
为填补这一研究空白,来自相关研究机构的研究人员开展了一项针对 ChatGPT 解答 ESIs 患者疑问能力的评估研究。该研究成果发表在《Interventional Pain Medicine》,旨在通过对比一般性提问与特定性提问下 AI 回答的差异,分析其准确性、可读性和实用性,为 AI 在疼痛管理和脊柱介入手术中的应用提供科学依据。
研究方法
研究选取 ChatGPT 的最新版本(GPT4o)作为分析对象,围绕 ESIs 的围手术期管理与并发症,设计了 29 个常见患者问题,并分别以一般性(如 “硬膜外类固醇注射神经损伤”)和特定性(如 “我进行了硬膜外类固醇注射,如何判断是否出现神经损伤?”)两种形式提问,共生成 58 条回答。研究采用客观和主观相结合的评估体系:客观指标包括字数、句子数、Flesch-Kincaid 阅读等级和 Flesch 阅读舒适度评分;主观指标由两名介入疼痛专科医生通过李克特量表评估回答的准确性、清晰度、共情性和针对性,并统计是否包含 “建议与医生沟通”“遵循术后指导” 等关键内容。数据分析采用 t 检验、Mann-Whitney U 检验和卡方检验等统计学方法。
研究结果
3.1 客观统计结果
一般性回答在字数(347.93 vs. 244.03)、字符数、句子数等指标上显著高于特定性回答,但两者在 Flesch-Kincaid 阅读等级(13.08 vs. 12.97)和阅读舒适度评分(35.31 vs. 38.96)上无显著差异,表明一般性回答更详尽但可读性相当。
3.2 主观评估结果
在质量与准确性、清晰度和针对性方面,一般性回答得分更高(均为 M=5),而两者在共情性上得分均较低(M=3),表明 AI 在医学信息准确性上表现较好,但缺乏人性化关怀。此外,一般性回答中包含 “建议与医生沟通” 的比例更高(N=26 vs. N=10),且更常提及 “遵循术后指导”(N=11 vs. N=10)。
3.3 提示工程的影响
研究发现,5 个一般性提问因表述模糊导致回答偏离主题,需重新措辞,提示提问的精确性对 AI 输出质量至关重要。尽管一般性提问可能产生更全面的回答,但不当表述可能引发 AI “幻觉” 或离题,凸显提示工程在优化 AI 交互中的关键作用。
研究结论与讨论
本研究表明,ChatGPT 在解答 ESIs 相关患者疑问时,一般性提问通常能生成更准确、清晰和全面的回答,显示出 AI 作为医疗 triage 工具在疼痛管理中的潜力。然而,AI 回答普遍缺乏共情性,且存在因提问模糊导致离题的风险,提示需通过优化提示设计(如明确关键词、避免歧义)提升交互可靠性。此外,研究发现 AI 输出的阅读等级(约 13 级)远高于医学推荐的 6 年级水平,提示需进一步优化语言通俗性以适应不同健康 literacy 水平的患者。
从临床应用角度看,AI 可作为辅助工具快速响应患者常见疑问,缓解医生工作负荷,但需强调其作为 “辅助者” 而非 “替代者” 的定位,重要医疗决策仍需医生主导。未来研究可扩展至其他 LLMs(如 Gemini、LLaMA)和不同医疗场景(如脊柱介入其他术式),并纳入患者主观体验评估,进一步验证 AI 在真实世界中的适用性。
总之,该研究为 AI 在医疗领域的合理应用提供了重要参考,揭示了提示工程、模型优化与临床需求结合的关键路径,对推动智能化医疗服务的发展具有积极意义。