编辑推荐:
为评估大语言模型(LLMs)基于肺结节放射学报告和管理指南生成临床随访建议的性能,研究人员开展相关研究。结果显示 ERNIE-4.0-Turbo-8K 和 GPT-4o-mini 表现相近,LLMs 有潜力,但需严格验证和监督。该研究为自动放射学决策支持提供参考。
在医学领域,准确管理通过计算机断层扫描(CT)检测到的肺结节,对早期肺癌的诊断、治疗及患者预后至关重要。然而,即便在专业医疗中心,放射科医生在应用复杂的诊断指南时也面临诸多挑战。解读指南需要精准的专业判断,而遇到偶然发现的异常或处理复杂患者病史时,难度更大。同时,工作量大、职业倦怠等问题也会影响诊断准确性和随访建议的合理性。
人工智能模型在肺结节检测方面虽表现出色,但转化为临床可操作的管理建议却较为有限。大语言模型(LLMs)近年来在医疗领域展现出巨大潜力,可用于疾病诊断、临床记录和信息提取等。不过,其在肺结节管理方面的应用研究还较少。为了填补这一空白,来自中山大学附属第三医院的研究人员开展了一项研究,评估和比较 GPT-4o-mini 和 ERNIE-4.0-Turbo-8K 这两种 LLMs,基于放射学报告和既定管理指南,生成临床有效肺结节随访建议的性能。该研究成果发表在《European Journal of Radiology Open》上。
研究人员采用了多种关键技术方法。首先,收集了 2023 年 9 月 1 日至 2024 年 4 月 30 日期间的胸部 CT 成像报告作为样本,排除有恶性肿瘤病史、广泛炎症病变或危急值报告的患者。选用 GPT-4o-mini 和 ERNIE-4.0-Turbo-8K 这两种模型,利用 Python 脚本和相关软件包与模型 API 交互。采用少样本思维链(CoT)提示方法进行提示工程,通过放射科医生团队建立随访建议的 “金标准”,设计并优化提示。最后,由经过培训的初级放射科医生评估模型生成的随访建议,并进行错误分析和统计分析。
下面来看看具体的研究结果:
- 研究样本特征:用于提示工程的 60 份报告中,患者年龄中位数为 63.0 岁,男性占 40.0%;用于评估 LLMs 性能的 1009 份报告中,患者年龄中位数为 50.0 岁,男性占 50.6%。两组在年龄、患者设置和筛查设置方面存在显著差异。
- LLM 生成随访建议的评估:在肺结节风险分类上,GPT-4o-mini 准确率达 99.9%,ERNIE-4.0-Turbo-8K 为 99.8%;在随访间隔预测准确率上,GPT-4o-mini 为 92.8%,ERNIE-4.0-Turbo-8K 为 94.6%;有害随访建议率方面,GPT-4o-mini 为 3.5%,ERNIE-4.0-Turbo-8K 为 2.9%。两种模型在不同亚组中的表现有所差异,且观察者内一致性良好。
- 错误分析:GPT-4o-mini 的 73 个错误输出中,1 个是肺结节风险分类错误,其余主要是结节大小、体积倍增时间、结节持续时间提取错误及跳过提示步骤;ERNIE-4.0-Turbo-8K 的 54 个错误输出中,2 个是风险分类错误,其余错误原因与 GPT-4o-mini 类似。
研究结论和讨论部分表明,ERNIE-4.0-Turbo-8K 和 GPT-4o-mini 在基于指南和成像结果提供正确随访建议方面有较高准确率,显示出辅助放射科医生工作的潜力。但在临床应用中,仍需人类监督。该研究采用单一提示类型,虽有局限性,但基于中国肺结节指南的提示设计,在诊断标准更新时,可通过调整提示快速适应,这是 LLMs 相较于传统机器学习模型的优势。此外,LLMs 与现有放射学信息系统(RIS)和图像存档与通信系统(PACS)集成有潜在应用价值,但面临数据安全和临床验证等挑战。
总的来说,这项研究为 LLMs 在肺结节管理中的应用提供了重要参考,让人们看到了 LLMs 的潜力与不足,为后续研究和临床应用指明了方向,有助于推动医疗领域人工智能技术的合理应用,在保障患者安全的前提下,提升医疗服务效率和质量。