基于多阶段大语言模型框架的自杀相关健康社会决定因素提取方法研究

【字体: 时间:2025年10月01日 来源:Communications Medicine 6.3

编辑推荐:

  本研究针对从非结构化文本中提取自杀相关健康社会决定因素(SDoH)的挑战,开发了一种多阶段大语言模型(LLM)框架。通过上下文检索、相关性验证和SDoH因子提取三阶段设计,该框架在提取精度和可解释性方面均优于传统方法(如BioBERT和GPT-3.5-turbo),并显著提升了人工标注效率。这一成果为自杀风险早期识别和预防策略制定提供了有效技术支持,具有重要的公共卫生意义。

  
自杀是全球重要的公共卫生问题,每年导致数百万人死亡。理解导致自杀行为的健康社会决定因素(Social Determinants of Health, SDoH)对于早期干预和预防至关重要。SDoH包括人们出生、成长、生活、工作和衰老的环境条件,涵盖经济、政治、社会等多种因素。尽管越来越多研究试图将自杀相关SDoH因素纳入结构化电子健康记录(EHRs),但大多数相关信息仍以非结构化文本形式存在,难以被有效提取和利用。
目前,基于数据驱动的方法在提取SDoH时面临多重挑战。首先,SDoH因子的分布呈现长尾特性,许多关键因素在数据中较为罕见,导致模型难以准确识别。其次,自杀事件发生前的关键应激因素具有较强的时间敏感性,需要在两周时间窗口内进行精准捕捉,而多数模型在时序语境分析上表现不足。此外,深度学习模型通常被视为“黑箱”,缺乏可解释性,这在自杀研究中尤为关键,因为决策的透明度和可信度直接影响干预措施的实施。
为解决这些问题,Song Wang等人开发了一种多阶段大语言模型(LLM)框架,用于从非结构化文本中提取自杀相关SDoH因素。该框架通过分阶段处理,逐步筛选和验证相关信息,显著提升了提取任务的准确性与可解释性。研究成果发表于《Communications Medicine》,为自杀预防提供了新的技术路径。
研究团队主要采用了基于大语言模型的多阶段处理流程,包括上下文检索、相关性验证和SDoH因子提取。所使用的数据来源于美国国家暴力死亡报告系统(NVDRS)的死亡调查笔记,涵盖CME(验尸官/法医)和LE(执法部门)报告。技术方法上,团队使用了GPT-3.5-turbo进行零样本推理,并对FLAN-T5-base模型进行了微调,以用于句子级相关性验证任务。模型评估采用精确率、召回率和F1分数等指标,并通过人工标注金标准测试集验证模型输出可靠性。
框架架构与多阶段设计
该框架分为三个主要阶段。第一阶段是上下文检索,利用自然语言工具包(NLTK)将输入文本分句,并通过提示工程引导大语言模型检索与目标SDoH因子相关的句子。第二阶段是相关性验证,通过另一个LLM对检索到的句子进行二次验证,过滤不相关内容,提升中间输出的质量。第三阶段为SDoH因子提取,基于经过验证的句子判断目标因子是否在自杀事件发生前两周内出现。这一多阶段设计不仅提高了提取性能,还通过生成中间结果增强了模型的可解释性。
性能比较与基线模型
研究选取了10种不常见和8种常见的自杀相关SDoH因子进行测试。在多组对比实验中,该多阶段框架在F1分数、精确率和召回率上均显著优于微调的BioBERT模型、GPT-3.5-turbo端到端(End2End)模型以及思维链(CoT)提示模型。对于不常见因子,该框架的平均F1分数比BioBERT模型提高17.7%,比GPT-3.5-turbo End2End模型提高4.8%。在常见因子提取任务中,该框架同样表现优异,其零样本性能甚至超过了经过监督训练的BioBERT模型。
与推理模型的对比
研究还将该框架与DeepSeek-R1推理模型进行了比较。DeepSeek-R1在精确率上表现优异,在16个SDoH因子中的14个上取得了最高分,但其召回率较低。相比之下,多阶段框架在11个因子的召回率上优于DeepSeek-R1,说明其更适用于需要高覆盖率的应用场景。
可解释性评估与人工验证
通过构建包含655个句子的标注测试集,研究评估了框架在上下文检索和相关性验证阶段的准确性。结果表明,相关性验证模块将上下文检索的整体准确率从59.3%提升至73.1%。此外,微调后的FLAN-T5-base模型在相关性验证任务中达到了86.6%的准确率,显著优于未微调前的性能。
试点用户研究
一项试点用户研究显示,专家在使用该框架提供的中间解释进行SDoH因子标注时,平均标注时间减少62.39秒,同时标注准确率略有提升(83.33% vs. 81.55%)。参与专家反馈,AI辅助标注降低了心智负担,同时提升了标注信心和效率。
该研究开发的多阶段大语言模型框架有效解决了从非结构化文本中提取自杀相关SDoH因子的关键问题。其在性能上显著优于现有基线模型,特别是在长尾分布因子和时间敏感信息的提取方面表现突出。此外,该框架通过提供可解释的中间输出,增强了模型透明度,有助于建立信任并支持人工决策。这一成果不仅推动了自然语言处理在临床文本分析中的应用,也为自杀预防提供了可扩展、高效率的计算工具,具有重要的科研与实用价值。
然而,该研究仍存在一定局限性。例如,微调后的FLAN-T5模型未包含显式的推理生成能力,限制了其在某些场景下的可解释性。此外,当前研究仅涵盖了NVDRS手册中部分SDoH因子,未来工作可进一步扩展因子类型和评估范围,以提升系统的全面性。总体来看,该框架为SDoH研究提供了创新性的方法论支持,并在公共卫生与医学信息学领域具有广泛的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号