
-
生物通官微
陪你抓住生命科技
跳动的脉搏
优化提示策略可以提高大型语言模型对儿童癌症幸存者疼痛和疲劳相关功能影响的分类能力
《Communications Medicine》:Optimizing prompting strategies improves large language model classification of pain- and fatigue-related functional impact in childhood cancer survivors
【字体: 大 中 小 】 时间:2026年03月27日 来源:Communications Medicine 6.3
编辑推荐:
摘要 背景 了解症状如何影响儿童的日常生活功能对于改善儿童癌症幸存者的护理至关重要。随着叙事式症状报告在幸存者护理中越来越普遍,需要可扩展的自动化工具来解读这些描述并识别其功能影响。本研究评估了两种大型语言模型(ChatGPT-4o、Llama-3.1
了解症状如何影响儿童的日常生活功能对于改善儿童癌症幸存者的护理至关重要。随着叙事式症状报告在幸存者护理中越来越普遍,需要可扩展的自动化工具来解读这些描述并识别其功能影响。本研究评估了两种大型语言模型(ChatGPT-4o、Llama-3.1)在不同提示工程策略下的表现。
我们分析了30名儿童癌症幸存者及其护理人员的半结构化访谈,共获得819份与疼痛和疲劳相关的症状描述。每份描述都由专家进行了物理、社交或认知功能影响的注释,作为参考标准。使用了四种提示策略来评估ChatGPT-4o和Llama-3.1的表现:零样本(zero-shot)、少量样本(few-shot)、逐步推理(Chain-of-Thought)和生成知识(generated knowledge)。模型输出与专家注释进行了对比,并使用基于重采样的置信区间的标准分类和区分度指标对性能进行了量化。
结果表明,基于生成知识和逐步推理的提示策略在两种模型中的表现均优于零样本和少量样本策略。总体而言,这些策略能够产生最准确和稳定的物理、社交和认知功能影响的分类结果。具体来说,ChatGPT-4o在物理、社交和认知功能方面的准确性和区分度更为平衡,而Llama-3.1的敏感性较高,但准确性显著较低,尤其是在物理和社交功能方面。
提示工程的改进提升了大型语言模型对幸存者报告的疼痛和疲劳症状的解读能力。这些发现支持使用精心设计的提示来实现症状描述的自动化、上下文感知分析,为症状监测和以幸存者为中心的护理提供了一种可扩展的方法。