LLMCARE:通过由大语言模型(LLM)生成的合成数据增强的Transformer模型实现认知障碍的早期检测

《Frontiers in Artificial Intelligence》:LLMCARE: early detection of cognitive impairment via transformer models enhanced by LLM-generated synthetic data

【字体: 时间:2025年11月07日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  阿尔茨海默病早期筛查研究通过融合transformer嵌入与手工语言特征(如词汇丰富性、句法复杂度)的晚期融合模型,在ADReSSo 2021和Delaware数据集上实现F1达83.32%-85.65%。利用MedAlpaca-7B等LLMs生成分布对齐的合成数据可提升模型性能,而多模态LLMs(如Phi-4)效果有限。验证了融合方法在MCI筛查中的泛化能力,为可扩展的AI筛查工具提供了证据。

  阿尔茨海默病及相关痴呆(ADRD)对美国五百万老年人造成了严重影响,然而超过一半的患者尚未被诊断。这种疾病的早期检测对于及时干预和改善患者生活质量至关重要。自然语言处理(NLP)技术,尤其是基于语音的NLP方法,为ADRD的早期筛查提供了一种可扩展的解决方案。语音中的细微语言特征,如语言流畅性、语法错误和表达障碍,可能在临床诊断之前就显示出认知功能下降的迹象。因此,本研究旨在开发并评估一个基于语音的筛查流程,结合了基于Transformer的嵌入和人工提取的语言特征,并引入了大型语言模型(LLMs)生成的合成数据进行数据增强,同时对单模态和多模态的LLM分类器进行基准测试,以评估其在ADRD检测中的表现。

本研究的创新点在于综合运用多种技术手段,不仅考虑了语音内容本身,还探索了语音与文本的联合分析方法。在实际应用中,数据的多样性和代表性是提升模型泛化能力的关键因素。ADReSSo 2021基准数据集包含了从不同认知障碍严重程度(从轻度认知障碍[MCI]到严重痴呆)到认知健康的对照组参与者,为模型训练和评估提供了丰富的样本。而Delaware语料库则专注于临床确诊的MCI与对照组之间的对比,进一步验证了所提出筛查流程的适用性。

在方法上,本研究首先对基于Transformer的模型进行了系统评估,包括BERT、DistilBERT、RoBERTa、XLNet、BGE和Longformer等。这些模型在处理语言任务时表现出色,能够捕捉语言中的不流畅、重复和语法错误等特征,这些都是认知障碍的潜在标志。为了进一步提高模型的鲁棒性和分类性能,研究者将Transformer的嵌入与110个手工提取的语言特征进行了融合,构建了一个融合分类器。该分类器在测试集上达到了F1分数83.32,显著优于仅使用Transformer或仅使用语言特征的基线模型。这表明,将深度语言表示与人工特征相结合可以有效提升模型的泛化能力。

为了应对数据不足的问题,研究者还利用LLMs生成合成语音数据,以增强训练集的规模和多样性。研究选择了五种LLMs,包括LLaMA-8B/70B、MedAlpaca-7B、Ministral-8B、GPT-4o等,分别对不同认知状态的语音进行生成。其中,MedAlpaca-7B在1倍规模的合成数据增强下,模型性能显著提升,F1分数达到85.65。然而,随着合成数据量的增加,性能提升趋于饱和甚至下降,这说明合成数据的分布对齐是关键。因此,研究建议在数据增强过程中保持合成数据与真实语音在语义和结构上的相似性,以避免信号质量的下降。

在评估单模态LLMs作为分类器的性能时,研究发现经过微调的模型表现优于零样本设置下的模型。例如,MedAlpaca-7B在微调后,F1分数从47.73提升至78.69,显示出显著的改进。然而,多模态模型在测试中表现相对有限,如Phi-4的F1分数为71.59,而GPT-4o的F1分数为67.57。这表明,尽管多模态模型在处理语音和文本的联合信息方面具有潜力,但当前的模型在捕捉认知语言特征方面仍存在不足。

为了验证所提出的筛查流程的泛化能力,研究者在Delaware语料库上进行了外部验证。该语料库包含205名参与者,其中99名被确诊为MCI,106名为对照组。在1倍规模的MedAlpaca-7B合成数据增强下,融合模型在测试集上达到了F1分数72.82,AUC为69.57。这一结果表明,融合模型在仅包含MCI的队列中依然具有较高的分类能力,支持其在早期筛查中的应用潜力。

研究结果还表明,使用合成数据进行增强可以显著提升模型的性能,但需要在数据量和质量之间取得平衡。合成数据的分布对齐是增强效果的关键因素,而模型的微调策略则影响其在不同数据集上的泛化能力。此外,研究发现,尽管LLMs在某些任务中表现优异,但在其他任务中可能并不理想。例如,在精神健康访谈中,LLMs生成的合成数据显著提高了基于机器学习的抑郁症检测效果,但在社会决定因素的命名实体识别任务中,其提升幅度较小。在自闭症检测任务中,合成数据虽然提高了召回率,但降低了精确率。这些结果表明,LLMs生成的合成数据需要在语义、结构和分布上与真实数据保持一致,才能有效提升模型的分类性能。

本研究还探讨了多模态模型在ADRD检测中的应用。虽然多模态模型能够同时处理语言和语音信号,从而捕捉语言内容和表达方式(如语调、停顿等),但它们在实际应用中的表现仍需进一步优化。研究中使用的多模态模型包括GPT-4o、Qwen-Omni和Phi-4,它们在零样本设置下表现不佳,但在微调后有所提升。然而,与单模态模型相比,它们的提升幅度有限,表明当前的多模态模型在认知语言特征的捕捉上仍有待改进。

研究还指出,现有的自动语音识别(ASR)系统在处理临床语音时可能会对语音进行规范化处理,从而抑制某些重要的诊断线索,如填充词、重复和碎片化词汇。因此,建议在实际应用中使用能够保留这些语言特征的ASR系统,并定期对系统进行审核和参数调整,以确保模型在不断变化的语音数据中保持高精度。

此外,研究还讨论了ADRD筛查方法的局限性。例如,研究主要基于英文语音数据,并且数据来自结构化的任务,这可能限制了模型在非结构化或跨语言语音数据中的泛化能力。未来的工作需要扩展到更多语言和自然对话场景,以提高模型的适用性。同时,研究建议结合更严格的可解释性方法,分析哪些语言和语音特征对模型的预测起关键作用,以增强模型的透明度和临床实用性。

综上所述,本研究展示了基于Transformer嵌入和人工语言特征的融合方法在ADRD筛查中的有效性。通过合成数据增强和多模态模型的评估,研究为未来的研究和临床应用提供了重要的参考。研究结果表明,尽管LLMs在某些任务中表现出色,但它们在捕捉认知语言特征方面仍需进一步优化。同时,研究强调了数据分布对齐和模型泛化能力的重要性,为开发更加可靠和实用的ADRD筛查工具奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号