
-
生物通官微
陪你抓住生命科技
跳动的脉搏
三大语言模型在中文流产后护理咨询中的响应性能对比研究:潜力与挑战
【字体: 大 中 小 】 时间:2025年08月19日 来源:Risk Management and Healthcare Policy 2
编辑推荐:
本研究首次系统评估了ChatGPT 4.0 Turbo、Kimi 2.1.4和Ernie Bot 3.5三大语言模型(LLMs)在中文流产后护理(PAC)咨询中的表现。通过20个临床高频问题测试发现,88.3%的响应总体评价为"良好",但在准确性(48.33%良好率)和可靠性(P<0.001差异)方面存在显著改进空间,尤其需警惕人工智能幻觉(AI hallucinations)风险。研究为区域化AI医疗咨询发展提供了重要循证依据。
背景
人工流产(induced abortion)是全球重大公共卫生问题,中国占全球流产总量的四分之一,其中55.9%为重复流产。流产后护理(PAC)通过标准化避孕咨询服务可降低相关死亡率,而大型语言模型(LLMs)在医疗咨询中展现出巨大潜力。本研究首次针对中文语境,系统评估三大主流LLMs在PAC咨询中的表现。
方法
研究采用严格的双盲设计,由3名10年以上经验的PAC顾问从5大核心领域(避孕必要性、最佳时机、方法选择、效果评估、生育影响)筛选20个临床高频问题。对ChatGPT、Kimi和Ernie Bot各进行3轮独立测试,采用Likert量表从准确性(accuracy)、相关性(relevance)、完整性(completeness)、清晰度(clarity)和可靠性(reliability)5个维度评分。
关键发现
总体表现:180份响应中88.3%获"良好"评价(均分>4),三组无显著差异(P=0.352)。但准确性仅48.33%达优,11.1%存在明显医学错误。
模型差异:
可靠性:Kimi显著优于ChatGPT(P<0.001),展现中文模型本土优势
输出稳定性:ChatGPT响应最稳定(P=0.413),而Kimi和Ernie Bot存在显著波动(P<0.001)
专题表现:
避孕时机:Kimi评分最高(P<0.001)
避孕效果:ChatGPT准确性突出(P=0.009)
生育影响:ChatGPT优于Ernie Bot(P=0.005)
临床启示
研究发现LLMs存在"表面优势悖论"——虽然85.53%响应相关性良好,但AI幻觉导致关键医学信息失真。例如有模型错误建议"停用短效避孕药后可立即妊娠",或宣称"短效避孕药适合所有人群"。这种流畅表达与事实错误的组合可能误导患者,需建立严格审核机制。
展望
研究建议:对标准化问题(如避孕必要性说明)可优先采用高一致性模型;而对时效敏感问题(如术后避孕时机)需人工复核。未来需开发针对中文医疗场景的幻觉检测算法,并建立多轮对话评估体系。值得注意的是,中国本土模型在特定场景的优越性,为区域化AI医疗发展提供了重要启示。
局限性
研究未涉及情感支持等复杂场景,且评估主要基于三甲医院标准。未来需引入客观指标如临床指南符合率,并增加用户实时反馈模拟。需要特别强调的是,当前任何LLMs都不应独立用于临床决策,必须与专业医疗监督相结合。
生物通微信公众号
知名企业招聘