基于大语言模型的异质性MRI序列描述元数据标准化研究

【字体: 时间:2025年05月30日 来源:Journal of Imaging Informatics in Medicine

编辑推荐:

  为解决MRI自由文本序列描述(SDs)因厂商和技术员输入差异导致的高度异质性问题,研究人员开展了一项利用大语言模型(LLMs)自动分类MRI序列的研究。通过分析2510例非增强脑MRI的1395种独特SDs,发现GPT-4o以0.983±0.020的AUC值显著优于其他模型,证实LLMs能有效实现MRI元数据标准化。

  

磁共振成像(MRI)元数据中,用于识别扫描序列的自由文本序列描述(Series Descriptions, SDs)存在显著异质性——制造商和技师的不同输入习惯导致其格式千差万别。这种变异性给摆位协议(hanging protocols)制定和数据集整理带来巨大挑战。

这项研究评估了大语言模型(Large Language Models, LLMs)自动分类MRI SDs的能力。研究人员分析了2016-2022年间某机构实施的所有非增强脑MRI,从元数据中提取出全部独特SDs。一位执业神经放射科医生将SDs人工分类为7类:"T1"、"T2"、"T2/FLAIR"、"SWI"、"DWI"、"ADC"或"其他"。随后测试了包括GPT 3.5 Turbo、GPT-4、GPT-4o、Llama 3 8b和Llama 3 70b在内的多种LLMs,要求它们将每个SD归类到上述序列类别中。

研究采用曲线下面积(Area Under the Curve, AUC)作为主要评估指标,将模型表现与人工分类的"金标准"进行对比。此外,还要求GPT-4o生成匹配各类别的正则表达式模板。

在2510例脑MRI检查中,共发现1395种独特SDs,其中727种(52.1%)仅出现一次,凸显了SDs的高度变异性。结果显示:

  • GPT-4o在详细提示条件下表现最优,所有序列的平均AUC达到0.983±0.020
  • GPT系列模型显著优于Llama系列,且GPT家族内部差异较小
  • 正则表达式生成效果不稳定,所有序列的平均AUC仅为0.774±0.161

这项研究证实,大语言模型能有效解析和标准化异质性MRI序列描述,为医学影像元数据处理提供了智能化解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号