利用大型语言模型,为乳腺癌患者因化疗引起的恶心和呕吐问题开发一个以护理为导向的知识图谱

《International Journal of Nursing Sciences》:Developing a nursing-oriented knowledge graph for chemotherapy- induced nausea and vomiting in breast cancer using a large language model

【字体: 时间:2025年10月24日 来源:International Journal of Nursing Sciences 3.1

编辑推荐:

  化疗相关性恶心呕吐(CINV)知识图谱的构建与验证:基于大语言模型(LLM)的整合方法与临床应用潜力 CINV knowledge graph construction and validation: integrated approach with LLM and clinical application potential

  化疗诱导恶心呕吐(CINV)是乳腺癌患者中最常见的不良反应之一,对患者的生活质量和治疗依从性产生显著影响。现有的关于CINV的预防、评估和管理的证据多分散且不一致,难以形成统一的临床决策支持。为此,本研究利用大型语言模型(LLM)构建了一个CINV的知识图谱,旨在整合护理与医学证据,为系统的临床决策提供支持。

在构建过程中,采用了一种自上而下的方法,主要包括三个阶段:知识库准备、模式设计以及基于LLM的信息提取与整合。知识库准备阶段,研究人员从九个数据库和八个指南库中检索了截至2024年10月的文献资料,包括指南、证据摘要、专家共识和系统综述。这些资料由两位研究人员筛选,以确保其科学性和相关性,若出现分歧则由第三位专家进行仲裁。模式设计阶段,参考了统一医学语言系统(UMLS)、医学术语系统(SNOMED CT)以及护理干预分类(Nursing Intervention Classification),定义了实体和关系类型,构建了本体模式。信息提取与整合阶段,利用阿里巴巴云开源的Qwen模型,在CRISPE框架下进行命名实体识别(NER)、关系提取(RE)、实体消歧(ED)和知识融合,最终生成三元组并将其可视化在Neo4j数据库中。为了确保语义和逻辑的一致性,进行了四轮专家验证。模型的性能评估通过精确度、召回率和F1分数进行,并在Python 3.11环境中计算其95%置信区间。

本研究共纳入47项研究(包括18项指南、2项专家共识、2项证据摘要和25项系统综述)。Qwen模型在NER任务中识别了273个实体和289个关系,经过专家验证后,保留了238个实体和242个关系,最终形成了244个三元组。该知识图谱包括九种实体类型和八种关系类型,展现了良好的结构和整合性。在NER任务中的F1分数为82.9(95% CI: 0.820–0.839),在RE任务中的F1分数为85.54(95% CI: 0.844–0.867),显示出模型在信息提取方面的较高准确性。平均节点度为2.03,没有孤立节点,这表明知识图谱在结构上具有良好的连通性。

本研究的意义在于,利用LLM构建的CINV知识图谱实现了护理与医学证据的结构化整合,为临床护理决策提供了新的数据驱动工具,有助于推动智能化医疗的发展。现有的关于CINV的研究证据分散且缺乏统一性,使得护理人员在将建议转化为实际护理操作时面临挑战。传统的知识图谱构建方法依赖于手动标注生成种子实体对,这种方式不仅成本高,效率低,还容易导致对齐偏差。相比之下,基于LLM的知识图谱构建方法具有更强的推理能力、泛化能力和语言理解能力,尤其在低资源任务中表现出明显优势。LLM能够从复杂的医学文本中提取三元组,即结构化的实体关系,如主语-谓语-宾语的形式。此外,LLM的预训练使其能够整合广泛的医学知识,提高对复杂实体和关系的识别能力。LLM还能生成自然语言模板,描述实体之间的联系,从而增强知识图谱的可读性和实用性。

本研究采用的Chain of Thought(CoT)策略是一种基于提示的优化技术,通过模拟人类推理过程,引导模型产生连贯、逐步推理的逻辑判断,从而提高其决策的准确性、问题解决能力和可解释性。在知识图谱构建过程中,首先对实体进行预测,即根据头部实体和关系预测尾部实体。例如,当头部实体是“乳腺癌化疗引起的恶心呕吐”且关系是“分类方法”时,预测的尾部实体应为“急性化疗引起的恶心呕吐”、“延迟化疗引起的恶心呕吐”以及“持续化疗引起的恶心呕吐”。同样,头部实体也可以通过尾部实体和关系进行预测。例如,当尾部实体是“地塞米松”且关系是“药物治疗”时,模型需要根据地塞米松的药理作用和临床应用范围,准确推断其对应的症状“恶心呕吐”。

在关系预测方面,需要对头部和尾部实体进行逐一输入,以确定其连接关系。例如,当头部实体是“CINV”且尾部实体是“抗恶心呕吐疗效量表(AES)”时,模型需要根据医学共识回答“评估方式”这一关系。三元组的正确性验证则是通过提示模型进行,例如,当给定一个三元组时,模型被提示扮演乳腺癌化疗专家,逐步推理并回答“是”或“否”以判断其正确性。知识的存储和可视化则通过Neo4j数据库进行,其中节点代表实体,边代表实体之间的关系。为了提高可视化效果,开发了一个高度交互的图展示平台,支持节点拖动、关系过滤和动态聚合,帮助用户快速定位关键信息,从而支持基于数据的临床决策。

本研究的成果表明,基于LLM的知识图谱在信息提取和整合方面表现出良好的性能,特别是在NER和RE任务中的F1分数分别达到82.9和85.54,显示出模型在准确性和完整性方面的提升。通过将LLM与监督微调(SFT)相结合,进一步提高了模型的泛化能力和提取精度。研究还发现,少量的提示示例能够显著提高模型的性能,但在超过三示例后效果趋于饱和,这表明在信息提取任务中存在一定的效率极限。此外,研究强调了在构建知识图谱过程中,LLM的语义理解和上下文推理能力对于确保实体边界一致性和消除歧义的重要性。

知识图谱的构建不仅提升了信息的整合效率,还为临床护理提供了新的工具。通过将症状、风险因素、评估工具和干预措施整合在一个统一的语义框架中,知识图谱能够帮助护理人员快速检索与临床相关的信息,从而支持个体化护理策略的制定。例如,护理人员可以利用放松训练或饮食调整等非药物干预措施来应对高风险患者,同时选择经过验证的评估工具进行症状监测。这种结构化的知识图谱为护理人员提供了一个适应性的参考,有助于提升护理的精准性、患者教育的效果以及症状管理的统一性。

在方法学方面,本研究展示了LLM在信息提取任务中的优势。与传统的手动或基于规则的方法相比,LLM能够自动、可扩展地从非结构化的医学文献中提取结构化的护理知识。通过将1,282个手动标注的文本块输入到LLM中,生成了238个经过验证的实体和242个关系,覆盖了10个关键的CINV相关领域。NER任务中的F1分数达到86.7,RE任务中的F1分数达到85.3,显示出模型在信息提取方面的高准确性。这些提升可以归因于多种机制:增加少量提示示例丰富了模型的上下文理解,提高了实体边界的识别能力;任务特定的提示减少了指令的模糊性;少量提示输入作为紧凑的医学词汇库,减少了词汇外(out-of-vocabulary)问题;而大多数性能提升出现在前几个提示示例中,表明存在饱和效应。这些发现支持了提示工程作为一种轻量但高效的策略,用于特定领域的信息提取。此外,LLM在知识图谱构建中的应用还使得护理敏感概念的系统识别成为可能,如症状群、患者报告结果和个体化护理策略,从而增强了知识图谱的实用性和可解释性。

尽管本研究取得了积极成果,但仍存在一些局限性。首先,本研究仅关注知识图谱的构建阶段,未验证其在真实临床场景中的应用效果,如决策支持或症状管理。未来的研究需要进一步评估知识图谱在临床系统中的结构化指标(如一致性、冗余性和完整性),以确保其在实际应用中的可用性。其次,虽然应用了专家验证来消除幻觉或不准确的输出,但依赖于手动过滤仍显示出当前LLM在事实一致性方面的不足。因此,未来的研究应考虑将LLM方法与基于规则的系统或专家驱动的验证流程相结合,以进一步提高其可靠性和领域特定性。最后,尽管LLM在NER和RE任务中表现出色,但RE任务的F1分数仍有提升空间,尤其是在隐含或领域特定的关系方面。此外,观察到的在三示例后的饱和效应表明,进一步的性能提升可能需要强化学习或使用领域特定的预训练。

综上所述,本研究通过使用中国LLM、提示工程和监督微调,构建了一个CINV知识图谱,验证了LLM在知识图谱构建中的可行性和潜力。该知识图谱包括238个经过验证的实体和242个关系,覆盖了10个关键领域,能够帮助医疗专业人员管理CINV症状,并为临床决策提供支持。研究结果表明,LLM在信息提取和整合方面具有显著优势,尤其是在提高护理的精准性和患者教育的效果方面。未来的研究需要进一步优化知识图谱的构建方法,确保其在实际临床场景中的应用效果,并通过结合多种技术手段提高模型的可靠性和领域特定性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号