患者特异性出院指导的机器翻译准确性及安全性评估:ChatGPT-4与Google Translate的多语言比较分析

【字体: 时间:2025年07月10日 来源:BMJ Quality & Safety

编辑推荐:

  这篇研究通过对比ChatGPT-4和Google Translate在英语→西班牙语、中文及俄语的翻译表现,评估了患者特异性出院指导的机器翻译(MT)准确性及潜在临床风险。结果显示,GPT-4在中文(95% vs 90%)和俄语(89% vs 80%)翻译中显著优于Google Translate,西班牙语两者相当(97% vs 96%)。尽管句子级有害误译率≤1%,但指令集层面最高达6%(俄语),提示需谨慎用于高风险场景。研究为低风险场景(如英语→西班牙语)的MT应用提供了循证支持,同时强调专业审核的必要性。

  

Abstract

随着全球移民增加,语言障碍成为医疗沟通的重要挑战。本研究聚焦机器翻译(MT)在患者特异性出院指导中的应用潜力,对比了ChatGPT-4(GPT)和Google Translate的翻译准确性及临床风险。结果显示,两种工具在英语→西班牙语和中文翻译中句子级准确率≥90%,但俄语表现较差(GPT 89%,Google Translate 80%)。指令集层面,16%-66%的翻译存在至少一处错误,但临床显著有害误译率≤6%。研究支持MT在低风险场景的补充作用,同时呼吁对高风险内容保持谨慎。

Introduction

全球2.81亿移民面临医疗语言障碍,而现有翻译服务覆盖不足。既往研究表明,非英语患者(NELP)仅8%获得母语出院指导。尽管标准化材料的翻译可行,患者特异性文本的实时翻译仍存缺口。大型语言模型(LLM)如GPT的出现为填补这一缺口带来希望,但其在自由文本翻译中的表现尚未充分验证。本研究通过对比GPT-4与Google Translate,评估了三种语言翻译的准确性与安全性。

Methods

研究选取50组(316句)急诊科患者特异性出院指导,由GPT-4和Google Translate翻译为西班牙语、中文及俄语,再经专业译者回译。四名医师双盲编码评估准确性及潜在危害。句子特征(如低可读性、医学术语)被纳入分析,采用χ2检验和逻辑回归模型比较工具性能。

Results

准确性差异:GPT-4在中文和俄语翻译中显著优于Google Translate(p<0.05),西班牙语两者相当。Google Translate的准确率较2019年研究提升(中文90% vs 81%)。
危害风险:句子级有害误译率≤1%,但指令集层面俄语翻译风险最高(6%)。低可读性、拼写错误及非常规医学术语(如“阴性结果”)与误译显著相关。
语言特异性:西班牙语表现最优,俄语问题最多,中文居中。GPT-4对语法错误的容错能力更强。

Discussion

临床意义:MT工具可缓解西班牙语等低风险场景的翻译缺口,但俄语等高误译率语言需专业审核。研究支持美国HHS 1557条款对MT使用的分级建议,即高风险内容必须人工复核。
局限性:样本量限制了对误译预测因素的探索;未评估患者视角的理解差异;模型性能可能随时间变化。
实践建议

  • 避免将MT用于高风险沟通(如复杂用药指导)
  • 提供原文及机器翻译免责声明
  • 通过口头沟通确认患者理解
  • 优化临床文本可读性,减少非常规术语

Conclusion

GPT-4在患者特异性文本翻译中展现优势,尤其英语→西班牙语场景可谨慎应用。未来需扩大语言对评估,并探索LLM在提升临床文本质量中的作用。医疗机构需建立MT使用规范,平衡效率与患者安全。

(注:全文严格基于原文数据,未添加非文献支持结论;专业术语如LLM、NELP等均按原文标注;统计符号如p<0.05、χ2等保留原格式。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号