大型语言模型与规则NLP在阿尔茨海默病表型提取中的性能较量:GPT-4展现高召回优势
《npj Dementia》:Comparing Alzheimer disease phenotype extraction using rule-based natural language processing, GPT-4, Phi-4, LLaMA, and DeepSeek
【字体:
大
中
小
】
时间:2025年11月26日
来源:npj Dementia
编辑推荐:
本研究针对阿尔茨海默病(AD)临床表型从电子健康记录(EHR)非结构化文本中自动化提取的挑战,比较了GPT-4、Phi-4、DeepSeek、LLaMA等大型语言模型(LLM)与规则式自然语言处理(NLP)方法的性能。结果表明,GPT-4在召回率(median=1)和F1分数(median=0.98)上表现最佳,而规则NLP精度最高(median=0.97)。研究为临床决策支持系统提供了模型选择依据,强调需根据具体应用场景权衡精度、召回率与可扩展性。
在阿尔茨海默病(Alzheimer disease, AD)的临床诊疗中,医生们每天都会产生大量的非结构化文本记录,如门诊病历、影像学报告和认知评估记录。这些文本中蕴含着丰富的临床信息,包括认知衰退的行为表现(如重复提问、 misplaced objects)、共病情况(如高血压、抑郁)、痴呆家族史、脑影像学发现(如萎缩、梗死)以及生物标志物检测结果(如脑脊液中的总tau蛋白、磷酸化tau蛋白浓度)。这些信息对于AD的早期诊断、疾病严重程度评估、治疗方案制定以及临床试验入组筛选都至关重要。然而,这些宝贵的信息往往"沉睡"在电子健康记录(Electronic Health Records, EHR)的自由文本中,难以被大规模提取和利用。传统上,研究人员依赖结构化数据开展研究,但许多关键的AD表型仅存在于临床笔记的非结构化叙述中,这成为了AD临床研究和精准医疗的一大瓶颈。
为了解决这一挑战,自然语言处理(Natural Language Processing, NLP)技术应运而生。早期的规则式NLP pipeline基于预定义的词典和语法规则,虽然在某些特定任务上表现出较高的精确度,但需要大量的人工设计和维护,且难以适应不同医疗机构多变的文档记录习惯。近年来,大型语言模型(Large Language Models, LLMs)的崛起为临床文本信息抽取带来了新的希望。这些模型在海量文本数据上进行了预训练,具备了强大的语言理解和生成能力,用户只需通过简单的提示(prompt)即可引导模型完成特定任务,大大降低了技术门槛。然而,在AD这一专业医学领域,这些通用LLMs的表现究竟如何?它们能否媲美甚至超越专门设计的规则式NLP方法?不同的LLMs之间又存在哪些性能差异?这些都是临床研究者和医疗信息学家迫切需要回答的问题。
为此,华盛顿大学医学院的研究团队开展了一项针对性的比较研究。他们选取了100份来自记忆诊断中心的真实世界临床笔记,分别使用GPT-4、Phi-4、DeepSeek-R1-Distill-LLaMA-8b、LLaMA-3.2-3b四种LLM以及一个先前开发的规则式NLP pipeline,从中提取10种与AD相关的关键临床表型。所有提取结果均与两名临床专家的手动标注进行比对,以精确度(precision)、召回率(recall)和F1分数(F1-score)作为评估指标。
研究团队使用了100份来自华盛顿大学医学院记忆诊断中心的真实临床笔记作为数据集。表型提取方法包括:(1)使用商业规则式NLP平台(Linguamatics I2E)构建的基准管道;(2)通过Azure OpenAI服务调用的GPT-4模型;(3)在本地使用Ollama框架部署的Phi-4、DeepSeek和LLaMA开源模型。采用零样本(zero-shot)和少样本(few-shot)提示策略引导模型输出结构化JSON结果。性能评估以两名临床专家的独立标注为金标准,计算精确度、召回率和F1分数。
研究结果显示,不同方法在表型提取任务上表现出显著差异。总体而言,GPT-4在综合性能上拔得头筹,其中位召回率达到完美的1(范围0.99-1),中位F1分数为0.98(范围0.82-1),显著优于其他所有方法。规则式NLP pipeline则展现了最高的中位精确度(0.98;范围0.71-1),但与GPT-4和Phi-4的差异未达到统计学显著性。值得注意的是,不同模型在不同表型上的表现存在明显波动。
研究人员观察到,所有方法在提取数值型数据(如MMSE、CDR?评分)和生物标志物实验室结果时都表现出色,F1分数均超过0.90。对于二元分类任务(如是否存在高血压、抑郁、misplacing objects、repeating statements、萎缩等),大多数方法也取得了成功。然而,脑梗死(infarct)表型的提取成为了一个明显的异常点,所有模型在此任务上的表现均不理想。此外,痴呆家族史的提取也颇具挑战性,LLaMA、DeepSeek和规则式方法在此表型上均遇到困难。
研究比较了零样本和少样本提示策略对模型性能的影响。结果显示,两种策略在不同模型和表型上呈现出相似的性能趋势,差异未达到统计学显著性。这表明,对于本研究中的表型提取任务,简单的零样本提示已能获得相对稳定的结果,无需复杂的提示工程设计。
通过对错误样本的深入分析,研究人员发现了若干有趣的现象。一方面,LLMs有时能够识别出人工标注者遗漏的信息(如CT报告中提到的"年龄相关性脑容量减少"作为萎缩的证据),这显示了LLMs基于大规模先验知识进行模式识别的优势。另一方面,LLMs也出现了明显的幻觉(hallucination)现象,即模型基于文本中存在的概念进行不合理关联,得出错误结论。例如,在判断脑影像是否发现梗死灶时,LLMs容易将"慢性小血管缺血性疾病"或患者卒中史错误地关联为当前影像学上的梗死证据。
本研究首次系统比较了多种主流LLMs与规则式NLP在AD临床表型提取任务上的性能。研究结果对临床研究和实践具有重要指导意义。
首先,研究证实了LLMs在临床文本信息抽取任务上的巨大潜力。即使没有复杂的提示工程和领域特定微调,GPT-4等先进LLMs也能达到或超越经过迭代优化的规则式NLP pipeline的性能。这一发现为资源有限的医疗机构提供了新的技术选择,他们可能无需投入大量人力开发专用NLP工具,而是利用现成的LLM服务快速部署临床信息抽取系统。
其次,研究揭示了精度与召回率之间的权衡关系,这直接影响着模型在不同临床场景下的适用性。对于高风险、高成本的干预措施(如淀粉样蛋白靶向治疗),需要极高精度的表型识别方法以避免误诊误治,此时规则式NLP可能是更合适的选择。相反,对于大规模人群筛查或低风险干预(如生活方式建议、进一步临床评估),高召回率的GPT-4模型则能更全面地识别潜在病例,尽管可能伴随一定的误报风险。
第三,研究强调了模型选择需综合考虑性能、成本和时间因素。云端LLM(如GPT-4)虽然响应迅速,但长期使用成本较高;本地部署的开源模型(如Phi-4)虽然需要本地计算资源,但长期成本更低,且数据无需出域,更符合某些医疗机构的隐私保护要求。值得注意的是,Phi-4的性能与GPT-4接近,为追求成本效益的机构提供了有吸引力的替代方案。
最后,研究指出了LLMs在专业医疗领域应用的局限性。幻觉现象的存在表明,当前LLMs虽然具备强大的模式识别能力,但缺乏深入的临床知识理解,可能导致错误的医学推断。这提示我们,在关键医疗决策场景中,LLMs的输出仍需临床专家的严格审核,不能完全依赖自动化系统。
展望未来,研究人员建议通过领域适应微调、针对性提示工程和计算效率优化(如使用更大的量化模型)进一步提升开源LLMs的性能。同时,也需要在不同医疗机构和疾病领域验证这些模型的泛化能力,并探索其在更广泛临床NLP任务中的应用潜力。随着技术的不断进步,LLMs有望成为临床研究和实践中不可或缺的智能工具,为阿尔茨海默病等复杂疾病的精准诊疗提供强大支持。
本研究发表于《npj Dementia》,为临床信息学领域提供了宝贵的实证数据,为LLMs在医疗领域的合理应用指明了方向。随着人工智能与临床医学的深度融合,我们有望见证更加智能化、个性化的阿尔茨海默病诊疗新时代的到来。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号