综述:大型语言模型在睡眠医学随机对照试验数据提取中的准确性:一项概念验证研究
《Sleep Medicine Reviews》:Accuracy of large language models in data extraction from randomized controlled trials in sleep medicine: A proof-of-concept study
【字体:
大
中
小
】
时间:2025年11月01日
来源:Sleep Medicine Reviews 9.7
编辑推荐:
本刊推荐:这项概念验证研究评估了ChatGPT 4o和Claude 3.5两种大型语言模型(LLM)在睡眠医学随机对照试验(RCT)中提取组规模、事件数、平均值和标准差数据的性能。研究表明,Claude模型以71.5%的总体准确率优于ChatGPT(69.1%),多句提示策略较单句提示提升显著。该发现为人工智能(AI)辅助证据合成领域提供了重要实践参考。
在循证医学领域,可靠的临床实践建议建立在特定领域可信证据的基础上。系统评价和Meta分析是高质量证据的最重要来源之一。这些证据合成过程中的关键环节是数据提取,当前指南建议采用双人提取等最佳实践。然而,数据提取不仅耗时且易出现人为错误。可重复性研究显示,数据提取错误在研究层面发生率达17.0%,在Meta分析层面高达66.8%。此类错误可能改变研究结果的方向或显著性,削弱证据合成的可靠性。
睡眠医学领域的系统评价数量近几十年显著增长,但前期研究发现该领域存在严重的数据可重复性问题。对于连续性结局,20.0%的试验层面数据和43.4%的Meta分析层面数据不可重现;对于二分类结局,不可重现率分别为14.1%和40.7%。大型语言模型(LLM)的快速发展为医疗领域带来了新机遇,其在证据合成中具有减少人工工作量、最小化人为错误的潜力。然而,AI工具在睡眠医学研究中的数据提取效果仍不明确。
本研究采用横断面设计,基于已建立的睡眠医学系统评价数据提取误差数据库,使用ChatGPT 4o和Claude 3.5两种AI工具重新提取包含在这些系统评价中的随机对照试验(RCT)的结局数据。研究评估了AI工具在组规模、事件计数、平均值和标准差四个具体任务中的数据提取准确性。
该数据库建立于2021年,包含睡眠医学领域的干预性系统评价。本次分析共纳入648项随机对照试验,其中201项(31.0%)试验数据用于二分类结局,447项(69.0%)用于连续性结局。约五分之二的随机对照试验(268/648, 41.4%)发表于2010年之后。338项(52.2%)关注药物干预,310项(47.8%)关注非药物干预。每个随机对照试验的中位样本量为63.5。
两种AI工具的数据提取准确率显示,Claude达到65.7%至71.5%,ChatGPT为52.9%至69.1%。Claude的总体准确率最高达71.5%(95% CI: 69.3%, 73.7%),显著优于ChatGPT的69.1%(95% CI: 66.8%, 71.3%)。在所有任务中,Claude均表现出更优性能,最大准确率差异达12.7%(OR = 1.70, 95% CI: 1.38, 2.10)。
多句提示方法相比单句提示展现出更高的准确性,最大百分比差异为-11.0%(OR = 0.64, 95% CI: 0.52, 0.78)。两种AI工具在提取组规模数据时均表现出较强性能。
本研究首次系统评估了AI工具在睡眠医学RCT数据提取中的表现。Claude的稳定优势提示不同LLM架构可能影响专业领域任务的性能。多句提示策略的有效性证实了提示工程在医疗数据提取中的关键作用,详细的上下文描述有助于模型更精准理解提取需求。
尽管AI工具显示出应用潜力,但其最高71.5%的准确率表明目前尚不能完全替代人工提取。数据提取错误可能导致Meta分析结果偏差,影响证据可靠性。因此,现阶段推荐采用AI工具与人工 Expertise 相结合的协同工作流程。
本概念验证研究证实了Claude等AI工具结合多句提示策略在睡眠医学数据提取中的潜力。建议采用协同方法整合AI工具与人工 Expertise,共同提升数据提取的准确性和效率。未来研究可进一步优化提示策略,探索AI工具在不同医学专科数据提取中的泛化能力。
研究构思与设计:CX, ML;手稿起草:ZP, XW, ZQ;数据收集:ZP, HY;数据分析与结果解读:CX, ZP;统计学指导:SD, LL, HC;方法学指导:CX, SD, LFK;手稿编辑:CX, ML, ZP, YH, SD, LFK, LL, CH;手稿修订:ZP, ML, CX。所有作者均阅读并认可最终手稿。
原始数据可见:https://osf.io/vw7xz 与 https://osf.io/zpwdj
本研究受国家自然科学基金(72204003, 72574229)、合肥综合性国家科学中心健康大数据与人群医学研究院研究项目(0301035204)、海军军医大学上海东方肝胆外科医院机构经费("腾飞计划" TF2024YZRH03)及上海市医院发展中心(SHDC12025626)资助。Luis Furuya-Kanamori受昆士兰大学基金支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号