编辑推荐:
为解决 GPT-4 分析含个人数据报告的安全问题,研究人员评估多种大语言模型,发现 Llama 3.1 405B 与 GPT-4 相当,或为安全替代方案。
在医学领域,数据的高效处理和准确分析对临床研究和患者治疗至关重要。随着人工智能技术的发展,大语言模型(LLM)逐渐应用于医疗数据处理。其中,机械取栓是治疗缺血性中风伴大血管闭塞患者的标准疗法,相关手术报告中的门到股动脉穿刺时间、阿尔伯塔卒中项目早期 CT 评分(ASPECTS)和改良脑梗死溶栓(mTICI)等程序性细节,对于临床和科研意义重大。此前研究表明,生成式预训练变换器 4(GPT-4)能从机械取栓的自由文本报告中准确提取程序性数据,但因其只能通过浏览器版本或应用程序编程接口(API)访问,在处理包含个人数据的医疗报告时,存在数据安全隐患。为解决这一问题,来自德国波恩大学医院神经放射学系等机构的 Nils C. Lehnen、Johannes Kürsch 等研究人员开展了一项研究,旨在评估 Llama 3.1 405B、Llama 3 70B、Llama 3 8B 和 Mixtral 8X7B 等可离线运行的大语言模型,从机械取栓自由文本报告中提取程序性细节的能力。该研究成果发表在《Clinical Neuroradiology》上。
研究人员开展此项研究时,主要采用了以下关键技术方法:首先,收集了两个机构的机械取栓自由文本报告作为样本,这些报告均来自缺血性中风且接受机械取栓治疗的患者,样本经过去识别化处理 。其次,使用德语和英语创建详细提示(prompt),并将其格式化为 JavaScript 对象表示法(JSON),为每个程序性细节设定明确指令和数据输入范围。最后,利用 McNemar 检验,将各模型提取数据的能力与 GPT-4 进行对比,以一名有经验的介入神经放射科医生的手动数据输入作为参考标准。
研究结果如下:
- 研究样本:共纳入 100 份来自机构 1 的报告(患者平均年龄 74.7±13.2 岁,53 名女性)和 30 份来自机构 2 的报告(患者平均年龄 72.7±13.5 岁,18 名男性)。所有报告均被 Llama 3.1 405B、Llama 3 70B、Llama 3 8B 和 Mixtral 8X7B 成功处理。
- 数据提取评估:在提取 2800 个数据点的任务中,Llama 3.1 405B 正确提取了 2619 个(93.5% [95% CI:92.6%,94.4%]),与 GPT-4(正确提取 2631 个,94.0%)相比无统计学差异(p=0.39)。Llama 3 70B 用英语提示时正确提取 2537 个(90.6% [95% CI:89.5%,91.7%]),用德语提示时正确提取 2471 个(88.2% [95% CI:87.0%,89.4%]),均劣于 GPT-4(p<0.001)。Llama 3 8B 正确提取 2314 个(86.1% [95% CI:84.8%,87.4%]),Mixtral 8X7B 正确提取 2411 个(86.1% [95% CI:84.8%,87.4%]),也都不如 GPT-4(p<0.001)。对于机构 2 的 30 份报告,Llama 3.1 405B 用德语提示正确提取 774 个(92.1% [95% CI:90.1%,93.9%]),数值高于 GPT-4(正确提取 760 个,90.5%),但无统计学差异(p=0.63)。其他模型在此部分报告中的表现同样不如 GPT-4。
- 不同模型在各分类数据提取上的表现:不同模型在各分类数据提取上的准确率差异较大。例如,Llama 3.1 405B 在 “最后一次取栓操作时间” 这一分类的正确提取率为 63.0%(95% CI:52.8%,72.4%),而在 “美国国立卫生研究院卒中量表(NIHSS)”“ASPECTS” 和 “使用支架取栓器” 等分类的正确提取率可达 100.0%(95% CI:96.4%,100.0%)。各模型在不同分类上的表现各有优劣,部分模型在某些分类上表现较差,如 Llama 3 8B 和 Mixtral 8X7B 在 “乙酰水杨酸(ASA)” 分类上正确提取率仅为 11% 和 12% 。
- 模型间一致性评估:通过 Cohen's kappa 评估模型间一致性,内部报告中,Llama 3.1 405B 与 GPT-4 和神经放射科医生的一致性系数分别为 0.93 和 0.93,表现为 “非常好”;外部报告中,Llama 3.1 405B 与 GPT-4 和神经放射科医生的一致性系数分别为 0.94 和 0.90,同样表现良好。
研究结论和讨论部分指出,Llama 3.1 405B 在从机械取栓报告中提取数据的任务上与 GPT-4 相当,在本地运行时可作为数据安全的替代方案,不过其运行需要大量计算资源。Llama 3 70B 虽在数据提取准确性上不如 GPT-4 和 Llama 3.1 405B,但也表现出较高的一致性,在性能和计算资源方面或可作为合理折中的选择。Llama 3 8B 和 Mixtral 8X7B 在处理外部报告时性能下降明显,通用性欠佳。此外,研究还存在一些局限性,如回顾性研究的性质可能限制其普遍性,提示未针对各模型优化,GPT-4 不断更新可能使此前结果过时,且研究未在本地大语言模型上执行等。尽管如此,该研究为医疗数据处理中使用大语言模型提供了重要参考,有助于推动安全、高效的数据提取技术在医学领域的应用和发展。