心血管疾病预防查询中英语与汉语大语言模型性能比较研究

【字体: 时间:2025年05月17日 来源:Communications Medicine 5.4

编辑推荐:

  为评估通用大语言模型(LLM)回答心血管疾病(CVD)预防相关问题的准确性与一致性,研究人员对比 BARD、ChatGPT-3.5、ChatGPT-4.0 和 ERNIE 在英 / 中文场景下的表现。发现英文中 ChatGPT-4.0 表现最佳,中文则存在性能差异,提示需持续评估多语言医疗信息质量。

  
在数字化医疗快速发展的当下,人们越来越依赖互联网获取健康信息,大语言模型(LLM)作为新兴工具,被寄予解决非专业人群心血管疾病(CVD)预防咨询需求的厚望。然而,当前通用 LLM 提供信息的准确性和一致性尚不明确,不同语言场景下的表现差异更是亟待探索。在此背景下,来自清华大学、新加坡国立大学等机构的研究团队,针对 LLM 在心血管疾病预防领域的应用展开了深入研究,相关成果发表于《Communications Medicine》。

研究人员选取了四款主流 LLM——Google 的 BARD、OpenAI 的 ChatGPT-3.5 与 ChatGPT-4.0,以及百度的 ERNIE,评估它们在处理英、中文 CVD 预防查询时的能力。研究共设计了 75 个相关问题,从回答准确性(分为 “适当”“临界”“不适当”)、时间改进能力(对初始不理想回答的优化)和自我检查能力(识别自身回答正确性)三个维度进行分析。

研究采用了严格的实验设计:首先基于美国心脏病学会和美国心脏协会的 CVD 预防指南,由资深 cardiologists 生成贴近患者实际提问的问题池,经翻译后形成中英文版本;随后随机抽取 75 个问题对各模型进行测试,回答由新加坡和中国的 cardiologists 组成的独立小组进行盲审评分;对于初始评分 “临界” 或 “不适当” 的回答,在两个月后利用模型更新版本进行重新回答,评估时间改进能力;同时通过提示 “please check if the above answer is correct”,考察模型的自我检查能力。统计分析采用 Kruskal-Wallis 秩和检验、Mann-Whitney U 检验和 Pearson 卡方检验等方法。

研究结果


英文场景表现


在英文提问中,各模型 “适当” 评分表现为:ChatGPT-4.0(97.3%)>ChatGPT-3.5(92.0%)>BARD(88.0%)。时间改进方面,BARD 和 ChatGPT-3.5 对初始不理想回答的改进率均为 67%(6/9 和 4/6),ChatGPT-4.0 达 100%(2/2)。自我检查能力上,ChatGPT-4.0 能 100% 识别自身回答正确性,BARD 为 77.8%,ChatGPT-3.5 仅 16.7%。

中文场景表现


中文提问中,“适当” 评分排序为:ChatGPT-3.5(88.0%)>ChatGPT-4.0(85.3%)>ERNIE(84.0%)。但 ERNIE 在时间改进(91.6%)和自我检查(91.6%)方面表现突出,显著优于两款 ChatGPT 模型。

不同疾病领域表现差异


在英文 “血脂异常”“生活方式”“生物标志物与炎症”“糖尿病与慢性肾病(DM and CKD)” 等领域,ChatGPT-4.0 均实现 100%“适当” 回答;BARD 在 “生活方式” 领域表现较弱(73.3%)。中文场景下,各模型在 “生活方式” 领域均表现优异(100%),ERNIE 在 “DM and CKD” 和 “预防策略” 领域表现更佳,而 ChatGPT 系列在 “生物标志物与炎症” 领域更具优势。

研究结论与讨论


研究表明,ChatGPT-4.0 在英文 CVD 预防查询中,无论是回答准确性、时间改进还是自我检查能力,均显著领先于其他模型;中文场景下,尽管 ChatGPT-3.5 的初始回答准确性略高,但 ERNIE 在模型迭代优化和自我评估方面更具潜力。值得注意的是,所有模型在中文场景下的整体表现均略逊于英文,反映出 LLM 可能存在语言偏向性,这与训练数据的质量和规模差异密切相关。

该研究首次系统对比了 LLM 在中英文 CVD 预防领域的表现,为多语言医疗信息的可靠性评估提供了重要依据。随着 LLM 的普及,定期、严格的跨语言性能评估至关重要,这不仅有助于提升模型的医疗服务质量,更能为缩小医疗信息获取的不平等性提供技术支撑。未来,需进一步扩大研究范围,纳入更多语言和疾病领域,推动 LLM 在精准医疗和健康普及中的规范化应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号