当代大型语言模型能否提供因果推断所需的领域知识?通过ASCVD案例研究评估自动因果图发现方法

《Clinical Epidemiology》:Can Contemporary Large Language Models Provide the Domain Knowledge Needed for Causal Inference? Evaluating Automated Causal Graph Discovery Through an ASCVD Case Study

【字体: 时间:2025年11月05日 来源:Clinical Epidemiology 3.2

编辑推荐:

  本研究评估了使用GPT-4o和GPT-o1通过四种提示工程策略生成心血管疾病DAG的效果。结果表明,链式思维提示生成最完整的DAG,但存在种族遗漏和来源伪造问题,需人类专家监督。

  在流行病学和公共卫生研究中,有向无环图(Directed Acyclic Graphs, DAGs)是构建研究设计和减少偏倚的重要工具。DAGs通过可视化变量之间的因果关系,帮助研究者识别潜在的混杂因素,从而更准确地评估干预效果。然而,生成高质量的DAGs需要深厚的领域知识,这使得传统方法依赖于专家的经验和判断。随着大型语言模型(Large Language Models, LLMs)的快速发展,研究者开始探索是否可以通过提示工程(Prompt Engineering)引导这些模型生成符合因果推理标准的DAGs,从而辅助研究设计。

本研究聚焦于如何通过不同的提示策略,促使LLMs生成与心血管疾病预防相关的DAGs,具体研究了HMG-CoA还原酶抑制剂(即他汀类药物)与无治疗的对比场景。这一场景具有丰富的领域知识,为评估LLMs的因果建模能力提供了良好的实验基础。我们评估了四种提示策略:零次提示(Zero-shot)、一次提示(One-shot)、基于指令的提示(Instruction-based)以及链式思维提示(Chain of Thought, CoT)。每种提示策略的设计旨在引导模型以不同的方式理解和生成DAGs,并通过多个运行测试来评估其稳定性和一致性。

研究发现,所有生成的DAGs均为无环结构,只有在使用基于指令的提示时出现了一次环状关系。这一结果表明,大多数LLMs能够遵循无环图的基本原则,但某些策略可能在复杂任务中出现偏差。此外,尽管DAGs在一定程度上涵盖了心血管疾病风险评分(ASCVD risk score)中的大部分变量,但“种族”这一关键变量在所有生成的DAGs中均未被提及。这一现象引发了对模型是否能有效识别社会决定因素的担忧,因为种族在心血管疾病风险评估中具有重要地位,特别是在研究健康不平等时。

在变量覆盖方面,链式思维提示策略生成的DAGs最为完整,涵盖了大部分ASCVD风险评分中的变量。然而,零次提示策略在GPT-o1模型上表现优于GPT-4o,不仅提供了更一致的变量选择,还为变量的纳入提供了合理的依据和来源。相比之下,一次提示和基于指令的提示虽然在某些方面表现出色,但它们在生成变量时的准确性、一致性以及来源的可靠性上存在明显不足。例如,一些生成的变量来源被发现是虚构的,或者与实际研究场景无关。

尽管LLMs在生成DAGs方面展现出一定的能力,但它们的输出仍存在多个局限性。首先,模型在某些情况下未能提供充分的解释和依据,导致因果关系的推断缺乏足够的支撑。其次,模型在变量选择上存在系统性偏差,尤其是忽略了“种族”这一重要变量,这可能影响研究结果的公正性和代表性。此外,模型生成的变量来源往往不够准确,甚至出现虚假引用的现象,这对研究的科学性和可信度构成挑战。

值得注意的是,不同提示策略在变量选择和因果路径构建上的表现存在差异。零次提示策略虽然能够生成较为完整的DAGs,但其结果在不同运行中不够一致。而一次提示策略则在变量选择的准确性和一致性上表现更好,尽管仍然存在部分变量遗漏的问题。链式思维提示策略在生成DAGs时表现出更高的系统性和逻辑性,通过分步骤的推理过程,使模型更接近人类专家的思维方式。然而,它在提供来源和依据方面存在不足,未能像零次提示策略那样为变量选择提供充分的文献支持。

基于这些发现,研究团队认为当前的LLMs仍不能完全替代领域专家的判断,但可以作为研究设计的辅助工具。在特定的提示策略引导下,LLMs能够生成初步的因果图,帮助研究者识别可能的混杂因素和因果路径。然而,这些图需要经过专家的验证和调整,以确保其科学性和合理性。尤其是在涉及健康不平等和社会决定因素的研究中,专家的参与尤为重要,因为这些因素往往在模型的训练数据中并未得到充分反映。

为了进一步提升LLMs在因果推理中的表现,未来的研究可以探索更多样化的提示策略,并结合外部的结构化知识库,如医学本体库(如UMLS、MeSH)等,以增强模型的准确性。同时,研究者还可以尝试优化模型的推理能力,使其在更少的提示下也能生成高质量的DAGs。此外,评估模型在公平性和偏倚传播方面的表现也是未来研究的重要方向,这将有助于确保LLMs在公共卫生研究中的应用更加负责任和可靠。

总之,虽然LLMs在生成DAGs方面展现出一定的潜力,但它们的输出仍然需要人类专家的监督和验证。在当前的技术条件下,LLMs可以作为研究团队的辅助工具,帮助构建初步的因果模型,但不能取代专业人员的判断。未来的研究应继续探索如何优化提示策略,并整合外部知识资源,以提升模型在因果推理中的表现。同时,研究者应关注模型在公平性和准确性方面的局限性,确保其在公共卫生领域的应用不会加剧现有的健康不平等现象。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号