大语言模型在颌面创伤诊疗决策中的潜力评估：生成式单模态AI的临床应用与可靠性分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月28日 来源：Journal of Maxillofacial and Oral Surgery 0.8

编辑推荐：

　　为解决大语言模型(LLMs)在临床决策中的可靠性问题，研究人员开展了一项横断面研究，通过30例颌面创伤真实病例，对比评估ChatGPT-4、Google Bard与住院医师的表现。结果显示，ChatGPT-4在辅助检查建议和治疗方案制定上优于Bard，但人类医师在QAMAI量表各项参数中全面领先。该研究为LLMs的医疗标准化应用提供了重要参考。

大语言模型(LLMs)正为医疗决策带来革命性机遇，但临床应用仍面临可靠性争议。这项研究巧妙设计了30例标准化颌面创伤病例，让ChatGPT-4、Google Bard和颌面外科住院医师同台竞技。专家评审团使用AIPI（人工智能表现指数）和QAMAI（质量评估多维指标）工具严格评估发现：两大AI在患者特征识别上旗鼓相当，但ChatGPT-4在鉴别诊断(differential diagnoses)和辅助检查建议方面更胜一筹。有趣的是，人类医师在QAMAI评估中全面碾压AI，尤其在临床实用性(overall usefulness)和参考文献质量等维度展现绝对优势。研究揭示，虽然LLMs已展现出辅助创伤诊疗的潜力，但要达到临床级可靠性仍需算法优化。AIPI和QAMAI工具的运用，为未来医疗AI评估标准的确立提供了重要范本。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号