Novel AI 在系统评价中的应用:GPT-4 辅助数据提取、分析及偏倚审查:探索 GPT-4 助力医学文献系统评价(SR)

【字体: 时间:2025年04月09日 来源:BMJ Evidence-Based Medicine

编辑推荐:

  为评估定制 GPT-4 模型在医学文献数据提取和评估中的表现,助力 SR 过程,研究人员开展对比研究。结果显示,定制 GPT-4 模型数据提取精准度高,在偏倚审查方面有潜力,为评估 GPT-4 能力提供重要开端。

  摘要
  • 目的:评估定制化 GPT-4 模型从医学文献中提取和评估数据,以辅助系统评价(Systematic Review,SR)过程的性能。
  • 设计:开展了一项概念验证对比研究,以评估定制化 GPT-4 模型相对于人工进行的随机对照试验(Randomised Controlled Trials,RCTs)评价的准确性和精确性。
  • 设定:开发了四种定制化 GPT-4 模型,每种模型分别专注于以下一个领域:(1)研究特征提取;(2)结果提取;(3)偏倚评估领域提取;(4)利用第三种 GPT-4 模型的结果评估偏倚风险。将模型输出结果与人类作者进行的四项 SR 数据进行比较。评估重点在于数据提取的准确性、结果复制的精确性以及偏倚风险评估的一致性水平。
  • 参与者:在选定的四项 SR 中,检索了 43 项研究用于数据提取评估。此外,选择了 17 项 RCTs 用于偏倚风险评估的比较,其中人工对照 SR 和类似的 SR 都提供了评估结果以供比较。
  • 干预措施:部署定制化 GPT-4 模型从选定研究中提取数据并评估偏倚风险,将其输出结果与人工评审员生成的结果进行比较。
  • 主要结局指标:GPT-4 输出结果与人工进行的 SR 在数据提取方面的符合率、效应量可比性以及偏倚风险评估中的组内 / 组间评判一致性。
  • 结果:将自动提取的数据与已发表综述的研究特征第一张表格进行比较时,GPT-4 与原始综述的符合率为 88.6%,由于不准确或遗漏导致的差异 < 5%。在 2.5% 的情况下,其准确性超过人工。提取的研究结果以及结果汇总显示,效应量与对照 SR 相当。使用 GPT-4 进行的偏倚评估显示出中等程度但显著的组内评判一致性(组内相关系数 ICC=0.518,p<0.001),以及与人工对照 SR(加权 kappa 系数 = 0.237)和类似 SR(加权 kappa 系数 = 0.296)之间的组间评判一致性。相比之下,两项人工进行的 SR 之间的一致性较差(加权 kappa 系数 = 0.094)。
  • 结论:定制化 GPT-4 模型在从医学文献中提取精确数据方面表现良好,在偏倚审查方面具有应用潜力。虽然所评估的任务比更广泛的 SR 方法范围更简单,但它们为评估 GPT-4 的能力提供了重要的初步评估。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号