大型语言模型在脊柱外科手术报告自动化审查中的应用:GPT推理模型的初步验证研究
《Journal of Clinical Neuroscience》:Automated review of spine surgery operative reports with large language models: a pilot study of GPT reasoning models
【字体:
大
中
小
】
时间:2025年10月19日
来源:Journal of Clinical Neuroscience 1.8
编辑推荐:
本研究验证了基于GPT的大型语言模型(LLMs)在脊柱外科手术报告中提取临床数据的潜力。研究显示GPT模型(包括o3-low等版本)在提取手术特征(如椎间融合术、椎板切除术等)时准确率达75%-100%,其表现与人类评审员一致性高度相关(r=0.67)。非推理模型因更快的执行时间(20.032秒)和更低成本($0.008)展现出临床应用优势,为减轻临床文档负担(HITECH法案实施后增长60%)提供了高效自动化解决方案。
本研究重点验证GPT系列模型在脊柱外科手术报告自动化分析中的性能表现,发现非推理模型在保持高精度的同时具有显著的时间和成本优势。
回顾性查询202年接受腰椎减压和/或融合手术的患者,仅纳入腰椎滑脱症(ICD-10诊断代码)病例。三名独立评审员(均为四年级医学生)评估手术报告的关键特征(如椎间融合术、椎板切除术、椎间盘切除术、硬膜切开术等)。
共纳入88份腰椎手术报告。评审员间一致性率差异显著:椎板切除术存在与否的一致性仅52%,而腰椎侧方椎间融合术(LLIF)达99%。不同GPT模型在单个变量和整体性能上均无显著差异(p>0.05),但模型在执行时间和成本方面存在显著差异:o3-low模型耗时最短(20.032秒,p=0.0070),成本最低($0.008,p<0.0001)。模型准确率在75%-100%之间,且人类评审员一致性与模型准确率呈正相关(r=0.67, p=0.0003)。模型的不确定性指标对错误识别具有高敏感性(0.63-1.00)。
本研究全面评估了GPT模型在脊柱外科手术报告自动化审查中的应用。研究发现推理与非推理模型均能准确提取手术变量,但推理模型并未持续优于非推理版本。鉴于性能相当,非推理模型更快的执行速度和更低成本可能使其更适合临床规模化应用。模型错误多发生于人类评审存在分歧的场景,提示未来可针对低一致性变量优化模型训练。
GPT模型是脊柱外科病历自动化审查的有效工具。推理能力未必提升性能,反而增加时间和代币成本。模型在人类评审员存在分歧时更易出错,需进一步探索该技术的优化路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号