Novel AI 在系统评价中的应用：GPT-4 辅助数据提取、分析及偏倚审查：探索 GPT-4 助力医学文献系统评价（SR）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月09日 来源：BMJ Evidence-Based Medicine

编辑推荐：

　　为评估定制 GPT-4 模型在医学文献数据提取和评估中的表现，助力 SR 过程，研究人员开展对比研究。结果显示，定制 GPT-4 模型数据提取精准度高，在偏倚审查方面有潜力，为评估 GPT-4 能力提供重要开端。

　　摘要

目的：评估定制化 GPT-4 模型从医学文献中提取和评估数据，以辅助系统评价（Systematic Review，SR）过程的性能。
设计：开展了一项概念验证对比研究，以评估定制化 GPT-4 模型相对于人工进行的随机对照试验（Randomised Controlled Trials，RCTs）评价的准确性和精确性。
设定：开发了四种定制化 GPT-4 模型，每种模型分别专注于以下一个领域：（1）研究特征提取；（2）结果提取；（3）偏倚评估领域提取；（4）利用第三种 GPT-4 模型的结果评估偏倚风险。将模型输出结果与人类作者进行的四项 SR 数据进行比较。评估重点在于数据提取的准确性、结果复制的精确性以及偏倚风险评估的一致性水平。
参与者：在选定的四项 SR 中，检索了 43 项研究用于数据提取评估。此外，选择了 17 项 RCTs 用于偏倚风险评估的比较，其中人工对照 SR 和类似的 SR 都提供了评估结果以供比较。
干预措施：部署定制化 GPT-4 模型从选定研究中提取数据并评估偏倚风险，将其输出结果与人工评审员生成的结果进行比较。
主要结局指标：GPT-4 输出结果与人工进行的 SR 在数据提取方面的符合率、效应量可比性以及偏倚风险评估中的组内 / 组间评判一致性。
结果：将自动提取的数据与已发表综述的研究特征第一张表格进行比较时，GPT-4 与原始综述的符合率为 88.6%，由于不准确或遗漏导致的差异 < 5%。在 2.5% 的情况下，其准确性超过人工。提取的研究结果以及结果汇总显示，效应量与对照 SR 相当。使用 GPT-4 进行的偏倚评估显示出中等程度但显著的组内评判一致性（组内相关系数 ICC=0.518，p<0.001），以及与人工对照 SR（加权 kappa 系数 = 0.237）和类似 SR（加权 kappa 系数 = 0.296）之间的组间评判一致性。相比之下，两项人工进行的 SR 之间的一致性较差（加权 kappa 系数 = 0.094）。
结论：定制化 GPT-4 模型在从医学文献中提取精确数据方面表现良好，在偏倚审查方面具有应用潜力。虽然所评估的任务比更广泛的 SR 方法范围更简单，但它们为评估 GPT-4 的能力提供了重要的初步评估。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号