
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GPT-4o与Llama-3.3-70B在卒中CT报告数据提取中的性能比较:注释指南对大型语言模型准确性的影响
【字体: 大 中 小 】 时间:2025年06月21日 来源:European Radiology Experimental 3.8
编辑推荐:
本研究针对放射学报告非结构化数据提取难题,评估了GPT-4o和Llama-3.3-70B在卒中CT报告中提取10项影像学特征的性能。通过设计标准化注释指南,发现其可显著提升LLMs的精确度(GPT-4o达0.95),为临床数据自动化处理提供方法论支持。
在急性卒中的诊疗过程中,计算机断层扫描(CT)影像报告承载着关键决策信息,从静脉溶栓指征到机械取栓适应症的判断。然而,这些以自由文本形式存在的放射学报告长期面临标准化缺失的困境——不同医师的描述习惯、诊断确定性表述的差异(如"可能"与"明确"),以及历史检查结果的混杂,使得传统人工提取数据效率低下且易出错。这种非结构化数据不仅阻碍了临床研究的规模化(如流行病学分析和治疗效果评估),更成为训练AI算法(如大血管闭塞检测模型)的瓶颈。
针对这一挑战,德国慕尼黑工业大学医院神经放射诊断与介入科的研究团队开展了一项开创性研究。他们系统评估了两种前沿大型语言模型(LLM)——OpenAI的GPT-4o和Meta的Llama-3.3-70B——在卒中CT报告数据提取中的表现,并首次量化了标准化注释指南对模型性能的影响。这项发表于《European Radiology Experimental》的研究揭示:通过精细设计的注释规则,LLMs的精确度可提升高达12%,为放射学数据的自动化处理建立了新标准。
关键技术方法
研究采用回顾性设计,包含两个数据集:数据集A(n=200)为分层抽样样本,涵盖前循环梗死、后循环梗死等5种病理类型;数据集B(n=100)为连续病例队列。通过双盲人工标注建立金标准,重点评估10项关键影像特征(如脑出血ICH、血管闭塞等)。模型测试采用两种条件:基础提示词vs含注释指南的提示词,通过JSON格式输出结果。性能指标包括精确度、召回率等,采用McNemar检验比较组间差异。
研究结果
模型性能对比
GPT-4o在所有测试条件下均优于Llama-3.3-70B,其微平均精确度达0.83-0.95,而Llama-3.3-70B为0.65-0.86。在连续队列(数据集B)中,GPT-4o结合注释指南时精确度从0.83跃升至0.95(p=0.006),且召回率保持0.98的高水平。值得注意的是,温度参数(temperature)对GPT-4o性能影响微弱(Δ精确度<0.03),表明其输出稳定性。

注释指南的关键作用
通过对标注分歧案例的迭代分析,团队构建了包含27条规则的注释指南(表2)。其中三类规则最具革新性:
这种"少样本提示"策略使血管狭窄识别的精确度从0.84提升至0.96,硬膜下血肿(SDH)判断准确率达100%(表4)。
诊断确定性评估的局限性
尽管GPT-4o对明确阳性/阴性判断准确率达91.1%,但在不确定表述(如"可能"、"待排")的分类中仅35%正确,提示LLMs对放射科医师的"诊断灰度"理解仍待改进。
结论与意义
这项研究为LLMs在医学数据提取中的应用提供了三重范式转变:
未来需在多中心、多语言环境中验证该方法的普适性,并开发专门针对放射学不确定表述的优化算法。这项成果不仅为卒中登记数据库的自动化建设铺平道路,更启示:当医学专业知识与LLMs的能力通过精心设计的规则相结合时,可突破非结构化文本处理的"最后一公里"瓶颈。
生物通微信公众号
知名企业招聘