今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

基于专家评分,对三种大型语言模型在前交叉韧带重建术后康复问题解答方面的表现进行比较

《BMC Musculoskeletal Disorders》:Comparison of three large language models in postoperative rehabilitation question answering after anterior cruciate ligament reconstruction based on expert ratings

【字体: 大 中 小 】 时间:2026年06月10日 来源:BMC Musculoskeletal Disorders 2.4

编辑推荐:

  摘要背景大型语言模型(LLMs)越来越多地被患者用来获取健康信息。前交叉韧带重建(ACLR)术后的康复过程具有明确的阶段划分和安全性考量。因此,提供的回答不仅需要清晰易懂,还需要在医学上准确、安全,并且符合康复阶段的要求。本研究比较了三种公开可用的LLM在标准化ACLR术后康复问

  

摘要

背景

大型语言模型(LLMs)越来越多地被患者用来获取健康信息。前交叉韧带重建(ACLR)术后的康复过程具有明确的阶段划分和安全性考量。因此,提供的回答不仅需要清晰易懂,还需要在医学上准确、安全,并且符合康复阶段的要求。本研究比较了三种公开可用的LLM在标准化ACLR术后康复问题回答中的表现。

方法

这是一项标准化的、盲法进行的、由专家评估的比较研究。2026年3月的某个预定数据收集日,研究人员分别向GPT-5.4、Doubao和MiniMax-M2.7提交了30个英文康复问题。这些问题涵盖了术后康复的五个阶段。回答内容经过匿名处理并随机排序后,由五位骨科医生从五个维度(准确性、安全性、符合康复阶段、完整性以及易懂性)进行盲法评分。统计分析采用了配对非参数检验、效应量分析、类内相关系数和线性混合效应模型。

结果

研究共纳入了90条模型生成的回答和450条专家评分记录。三种模型的总体得分存在显著差异(Friedman χ2 = 46.067, P?

结论

这三种模型在标准化的一轮ACLR术后康复问题回答中表现出不同的评分特点。对患者使用的康复信息的评估不应仅依赖于语言流畅性,而应优先考虑医学准确性、安全性和符合康复阶段的要求。这些发现为这一对康复阶段敏感的领域提供了初步的基准证据,但不应将其解读为支持临床应用、替代医生或患者受益的证据。

背景

大型语言模型(LLMs)越来越多地被患者用来获取健康信息。前交叉韧带重建(ACLR)术后的康复过程具有明确的阶段划分和安全性考量。因此,提供的回答不仅需要清晰易懂,还需要在医学上准确、安全,并且符合康复阶段的要求。本研究比较了三种公开可用的LLM在标准化ACLR术后康复问题回答中的表现。

方法

这是一项标准化的、盲法进行的、由专家评估的比较研究。2026年3月的某个预定数据收集日,研究人员分别向GPT-5.4、Doubao和MiniMax-M2.7提交了30个英文康复问题。这些问题涵盖了术后康复的五个阶段。回答内容经过匿名处理并随机排序后,由五位骨科医生从五个维度(准确性、安全性、符合康复阶段、完整性以及易懂性)进行盲法评分。统计分析采用了配对非参数检验、效应量分析、类内相关系数和线性混合效应模型。

结果

研究共纳入了90条模型生成的回答和450条专家评分记录。三种模型的总体得分存在显著差异(Friedman χ2 = 46.067, P?

结论

这三种模型在标准化的一轮ACLR术后康复问题回答中表现出不同的评分特点。对患者使用的康复信息的评估不应仅依赖于语言流畅性,而应优先考虑医学准确性、安全性和符合康复阶段的要求。这些发现为这一对康复阶段敏感的领域提供了初步的基准证据,但不应将其解读为支持临床应用、替代医生或患者受益的证据。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:人工智能康复评估|大语言模型对比|骨科术后护理|医生盲法评分|文献研究摘要 数据质量评估|模型表现差异|医疗可信度研究|学术文献索引|论文核心指标

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号