
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的头颈CTA报告智能质控:GPT-4、ERNIE Bot与SparkDesk的多中心效能评估
【字体: 大 中 小 】 时间:2025年08月29日 来源:Journal of Imaging Informatics in Medicine
编辑推荐:
来自Xuanwu医院的研究团队针对中文头颈CT血管造影(CTA)报告质控难题,创新性采用GPT-4、ERNIE Bot和SparkDesk三大语言模型,在15,000份报告中精准识别6类常见错误。研究发现模型检测准确率超95%,评估效率较人工提升显著,为放射科报告自动化质控提供了可靠技术路径。
这项开创性研究探索了大型语言模型(LLM)在头颈CT血管造影(CTA)报告质量检测中的应用价值。科研团队从宣武医院采集10,000例头颈CTA影像报告(数据集1)及5,000例多中心报告(数据集2),系统性地识别出六类常见错误类型。
研究团队采用GPT-4、文心一言(ERNIE Bot)和讯飞星火(SparkDesk)三大先进模型进行错误检测,并创新性地引入5级Likert量表进行报告整体质量评估。通过Wilcoxon秩和检验与Friedman检验,科学比较了不同模型的错误检出率差异。在数据集2中,研究人员不仅对六类错误进行人工标注,还记录了人工评分与模型检测的时间消耗。
令人振奋的是,三大模型对六类错误的检测准确率均突破95%大关。其中GPT-4与人工评分的一致性达到中等水平(ICC=0.517),文心一言和讯飞星火也展现出可观的一致性(ICC分别为0.431和0.456,P<0.001)。更值得关注的是,模型评估100份放射学报告的速度显著超越人工评审。
这项研究证实,大型语言模型不仅能有效区分放射学报告质量差异,还可精准识别具体错误类型,为放射科报告质量控制的智能化转型提供了强有力的技术支撑。研究结果在提升质控效率、降低人工成本方面具有重要的临床应用价值,为人工智能辅助医疗质量管理的未来发展指明了方向。
生物通微信公众号
知名企业招聘