综述:将人工智能整合到流行病学因果研究中

【字体: 时间:2025年03月25日 来源:Current Epidemiology Reports 3.0

编辑推荐:

  这篇综述探讨人工智能在流行病学因果研究中的应用、机遇、挑战,为相关研究提供全面指引。

  

人工智能在流行病学因果研究中的应用综述

在科技飞速发展的当下,人工智能(Artificial Intelligence,AI)已逐渐渗透到流行病学研究的各个方面,为因果推断和决策带来新的机遇与挑战。这篇综述全面剖析了 AI 在流行病学因果研究中的应用,旨在为科研人员提供深入的见解和实用的指导。

一、AI 工具分类

目前,与流行病学因果研究相关的 AI 工具种类繁多,大致可分为以下几类:
  1. 预测模型:利用统计模型或算法,依据预测变量和结果变量的观测值,对结果变量的值进行预测。常见的方法包括传统回归分析,以及更为复杂的人工神经网络、支持向量机、决策树(如分类与回归树 CART、随机森林)等。其应用广泛,如预测个体或群体未来的健康风险、疾病和伤害的人口趋势,追踪新发健康状况(如长新冠),以及估计小区域或数据缺失人群的健康结局等。
  2. 无监督学习:主要用于分析庞大、杂乱且无结构的数据,以识别其中的模式。与预测建模不同,无监督学习没有用于测试或验证模型的结果变量,而是聚焦于输入变量在不同观测中的一致性或差异。具体技术包括聚类分析(如- 均值聚类)、降维(如潜在类别分析、主成分分析)、密度估计、异常和模式检测等。在流行病学研究中,可用于评估政策暴露的聚类情况、从非结构化文本中提取有意义信息等。
  3. 因果结构学习:通过应用因果学习或建模算法,确定变量之间的因果结构。例如,绘制与给定数据集一致的有向无环图(Directed Acyclic Graph,DAG)或一组可能的 DAG,以及在大型数据集中发现有效的工具变量或回归断点设计。
  4. 因果估计:运用因果学习或建模算法,预测反事实结果,估计干预措施的因果效应。包括拟合统计模型来评估公共卫生干预的因果效应、估计异质性治疗效应(即治疗或暴露在不同亚组中的因果效应差异),以及优化干预措施的目标定位和调整。
  5. 生成模型:对所有观测变量的联合概率进行建模,并通过从该分布中采样来模拟新数据。与大多数预测建模、无监督学习和因果估计方法不同,生成模型能够创建新的数据。先进的生成模型利用深度学习,在大量数据上进行训练,构建高度准确的复杂数据(如自然语言)生成模型,不仅在传统机器学习任务(如文本分类)中表现出色,还能生成新颖的内容。例如,用于合成科学文献、起草科学研究报告的文本、表格和图表,以及对地理空间数据进行预测和插值等。

二、AI 在因果推断路线图中的整合

Petersen 和 van der Laan 的因果推断路线图为研究因果效应提供了一个广泛应用的框架,包括七个关键步骤,而 AI 在每个步骤中都能发挥独特的作用。
  1. 指定因果模型和现有知识:在因果推断任务的起始阶段,通常需要指定因果模型或绘制 DAG 来表示研究人员对相关变量因果结构和时间顺序的假设。AI 在此有两个重要用途:一是生成式 AI 可用于合成现有科学文献,识别知识空白。尽管目前公开可用的大语言模型(Large Language Models,LLMs),如 ChatGPT,在合成文献方面可靠性欠佳,存在文献综述不完整、研究质量评估不准确、编造事实和参考文献等问题,但经过特定训练的 LLMs(如 iris.ai、scite assistant、Stanford STORM)可能更可靠,不过仍需在流行病学研究的实质性和方法学领域进行验证。随着技术的不断进步,其准确性和完整性有望提高。当前,生成式 AI 可作为传统文献综述的辅助工具,先进行初步筛选,再由研究人员进行核实。二是 AI 工具可用于学习或假设因果结构。例如,Peter 和 Clark(PC)算法可在给定数据集和一组假设(因果马尔可夫条件、忠实性、充分性和无环性)的情况下,自动学习贝叶斯网络的因果结构。此外,Fast Causal Inference 等方法可在较弱假设下寻找因果结构,但通常会增加运行时间和一致集的规模。在实际应用中,AI 工具已被用于评估基因表达对疾病的影响、分析枪支法律、枪支拥有率和枪支死亡率之间的相互关系,以及确定抑郁症和睡眠问题之间因果效应的时间顺序等。然而,由于流行病学数据常存在时空相关性,结构学习面临挑战,新的方法如高斯过程建模或转移熵分析可能有助于解决这一问题。同时,输入数据或假设中的偏差和歧视可能会通过 AI 算法传播,因此对输出因果结构中与公平性相关的价值判断进行批判性评估至关重要。
  2. 指定观察数据及其与因果模型的联系:因果推断路线图的下一步是明确已测量或将要测量的变量,以及观察或采样的单位和参与者。AI 工具在这一步可助力数据收集和变量及测量的细化。无监督学习工具,如自然语言处理(Natural Language Processing,NLP)和 LLMs,能够从非结构化文本或图像中提取并转换为定量变量,用于生成政策暴露变量、测量社区环境、分析社交媒体数据等。此外,AI 还能改变数据收集的规模、速度和性质。LLMs 可对访谈转录本进行编码,实现大规模定性研究;计算机程序可作为调查访谈员,减少某些偏差,但也可能带来新问题;LLMs 还可用于改进问卷设计或插补缺失的民意数据,但这些应用仍处于探索阶段。AI 驱动的数据协调和共享技术为创建和分析大型数据集提供了机会,如通过定义通用数据元素和结合联邦学习,保护隐私的同时促进不同数据源的数据整合和分析。然而,AI 驱动的流行病学数据收集也带来了新的伦理问题,如训练数据中的偏差传播、参与者同意问题、数据可重复性受阻以及隐私保护等。研究人员必须谨慎处理,确保数据收集符合伦理和法律要求。
  3. 指定目标因果量:此步骤需将研究问题转化为与特定干预或暴露对目标人群中结果变量的因果效应相对应的正式数量或参数。AI 在这一阶段有两个重要应用:一是训练 LLMs 选择或定义感兴趣的因果参数。给定因果模型和研究问题,生成式 AI 工具可指导研究人员确定哪些目标因果量是可识别的,以及哪些最能反映原始研究问题。二是 AI 工具可作为干预本身。例如,临床研究人员应用预测模型对电子健康记录(Electronic Health Record,EHR)数据进行分析,根据患者的癌症复发、败血症、术后并发症或高医疗资源利用风险进行分层,并为临床医生的决策提供支持。在公共政策领域,AI 驱动的干预措施也备受关注,如美国司法部利用机器学习预测假释人员的再犯风险,并据此制定相应的计划。然而,与数据收集类似,AI 驱动的干预措施在减少某些偏差的同时,也可能带来伦理和安全风险,如决策支持工具失效对患者或假释人员造成的危害,以及偏差和歧视的传播等问题。
  4. 评估可识别性:评估可识别性旨在确定对于给定的因果模型和目标因果量,测量变量和观察结果是否足以满足所需条件,通常意味着确保正确识别、测量和控制所有混杂因素,或存在可用于进行因果推断的有效工具变量。AI 工具可用于判断这些标准是否满足,并选择或生成更有可能满足这些标准的对照组或数据集。例如,简单的自动化软件 DAGitty 可轻松识别足以控制混杂的变量集;合成控制方法通过对未治疗单位的结果进行加权平均,创建人工对照组,以估计公共政策的因果效应;机器学习算法可用于在大型数据集中自动发现有效工具变量,但尚未在流行病学研究中广泛应用。理论上,LLMs 可用于分析新闻媒体、法案、法规等,识别新的准实验机会,或在假设不确定的情况下,模拟数据集或因果模型,以确定如何实现识别。但与文献综述一样,必须对 LLM 输出的准确性进行人工验证。
  5. 陈述统计估计问题:在这一步,研究人员需要指定用于估计目标因果量的统计模型,并判断观察数据是否足以进行估计。如果数据不足,则需要调整目标或扩展假设集。AI 工具在这一阶段的作用与评估可识别性类似,LLMs 可通过合成科学文献中的推荐方法或支持模拟,为分析决策提供支持。例如,生成式 AI 可模拟具有已知参数的复杂现实数据集,帮助研究人员选择合适的估计方法,然后将其应用于实际数据。此外,与生成式 AI 的交互还可激发敏感性或证伪分析的思路。但同样,只有在生成式 AI 输出的准确性和质量可验证的情况下,才能用于合成信息或提出建议。
  6. 估计目标因果量:AI 在流行病学研究中最常见的应用之一是在估计因果效应时使用半参数建模技术。例如,随机森林、人工神经网络、支持向量机或它们的组合可用于替代传统的参数回归,将结果变量建模为暴露和混杂因素的函数。这些方法的优势在于允许数据驱动的模型选择、灵活的变量关系形状、处理多个预测变量以及复杂的预测变量之间的相互作用。深度学习的应用进一步优化了因果估计任务,可自动选择适合不同数据结构和统计程序的估计器,或自动推导计算标准误差的公式。这些工具不仅适用于估计平均治疗效应,还可用于因果中介和可转移性分析。此外,机器学习工具在估计异质性治疗效应(Heterogeneous Treatment Effects,HTEs)方面也取得了显著进展,包括数据驱动的亚组识别和跨亚组的异质性测试等。然而,从包含机器学习的统计模型中获得有效的统计推断存在挑战,因为用于估计标准误差或置信区间的统计理论有限。目标最大似然估计(Targeted Maximum Likelihood Estimation,TMLE)、去偏机器学习和平衡估计器等方法在一定程度上解决了这一问题,其中 TMLE 在流行病学研究中得到了广泛应用。
  7. 解释和报告结果:在估计目标因果参数后,需要对结果进行适当的解释和报告。生成式 AI 可协助研究人员在不同的解释层次中进行选择,从观察数据的统计参数到近似随机对照试验的效应。同时,机器学习算法用于学习因果结构和建立识别,也在这一阶段发挥作用。此外,生成式 AI 还可支持研究人员创建科学手稿和报告研究结果的文本、表格和图表,作为写作过程中的协作工具,提高写作效率和质量。但需要注意的是,AI 生成的内容可能存在质量问题,研究人员必须进行充分的监督,以防止偏差和不准确信息的出现。目前,大多数资助机构、期刊和出版商对 AI 在科学写作中的使用制定了政策,要求作者披露 AI 的使用情况,且生成式 AI 模型通常不能被视为作者。由于 LLMs 可能存在抄袭风险,因此建议使用抄袭检测软件对所有草稿进行检查。

三、AI 在因果决策中的整合

除了因果效应估计,流行病学研究还致力于做出因果决策,如确定使用何种干预措施、针对哪些人群以及如何根据目标人群进行干预措施的调整。AI 工具为这些因果决策任务提供了多种机会。
  1. 干预措施选择与优化:给定一组候选干预措施、它们对相关人群健康结果的因果效应估计以及选定的约束条件(如预算、公平性),预测建模和优化方法可用于确定哪种干预措施能够实现特定目标,如最大程度地降低总体人群中的特定健康结果。例如,一项研究表明,在美国,只有将阿片类药物使用障碍的药物治疗与纳洛酮的广泛分发相结合,才有可能实现减少过量死亡的目标。此外,优化过程还可纳入旨在提高公平性或减少群体差异的约束或惩罚措施,确保干预措施的益处更公平地分配给人群。
  2. 地理靶向:AI 工具可支持将干预措施地理定位到最有可能产生最大效果的地区。研究人员应用预测建模来预测疾病负担最高的地区,并动态调整资源分配。如 PROVIDENT 试验利用这种方法预测和预防药物过量的局部激增。
  3. 个体靶向与干预调整:预测模型可识别从干预中获益最大的亚组,从而确定干预措施的目标人群。此外,AI 工具还可根据个体的基线特征或在研究过程中对干预措施的反应,为每个个体量身定制干预措施,如估计最优动态治疗规则。例如,研究人员应用 AI 算法确定哪些涉法成年人最能从认知行为疗法中受益,以减少犯罪再犯。然而,AI 在因果决策中的应用,尤其是基于风险的目标定位或干预措施调整,可能会延续有害的刻板印象和基于种族、民族、性别、能力和其他社会地位的歧视。例如,Obermeyer 发现美国医疗保健中广泛使用的一种 AI 算法存在种族偏见,该算法对病情较重的黑人患者和健康状况较好的白人患者赋予了相同的风险水平。因此,在设计和应用因果决策算法时,必须纳入透明和结构化的公平性评估,最好由边缘化群体成员和有实际边缘化经验的个人领导,以防止或减轻 AI 偏差。例如,基于流行病学概念 “可允许” 协变量和协变量选择中固有价值判断的 AI 分析,可能更有助于预防或减轻 AI 偏差;基于社会学理论或干预与健康不平等关系框架的研究,可能更能识别和打破不平等,而不是强化不平等。为应对 AI 偏差问题,美国国家少数民族健康与健康差异研究所开发了 ScHARE 平台,旨在增加代表性不足群体在 AI 科学中的参与度,并减轻健康研究中的 AI 偏差。

四、讨论

本文系统地总结了将 AI 最新进展整合到流行病学因果推断和因果决策中的机会。在因果流行病学研究项目的各个环节,AI 工具如预测模型、无监督学习、因果结构学习、因果估计和内容生成等,都有可能提高研究的规模、复杂性、效率和质量。然而,AI 在准确性、公平性、伦理和安全方面仍存在显著局限性,目前尚无法完全自动化科学研究过程,人类专家仍然是可靠的流行病学研究的基础。但将 AI 视为因果研究过程中的助手,可实现有意义的 “协作”。为充分发挥 AI 在研究中的潜力,流行病学家需要建立跨学科合作关系,开发定制的数据和计算资源,并妥善处理伦理问题。跨学科团队应具备计算机科学(包括 AI、数据科学、机器学习、生物信息学)、统计学、医学和研究伦理学以及相关临床或实质性领域的专业知识。同时,清晰地沟通 AI 工具的用途和输出结果至关重要,以增强研究人员、从业者和公众对其的信任。数据方面存在诸多问题,如适合 AI 应用的流行病学数据类型尚未确定、AI 算法依赖训练数据的质量和完整性、大数据带来的技术和分析挑战等。此外,在使用生成式 AI 时,必须验证其输出的准确性和质量,目前对于如何评估 AI 性能或准确性的实践尚不统一,需要进一步标准化。AI 在医学和公共卫生研究中的伦理和安全问题备受关注,包括健康信息隐私、数据管理和共享、偏见和歧视、研究参与者安全、生物安全和生物安保等。流行病学家在支持 AI 在医疗保健和生物医学领域的监管方面发挥着重要作用,如对 AI 驱动的医疗设备进行上市后监测。同时,随着 AI 在研究中的应用不断增加,关于知识产权、同行评审和复制的问题也日益凸显,研究人员需要密切关注相关法规的演变,避免抄袭和违反政策。本文也存在一些局限性。AI 及其在科学研究中的应用发展迅速,本文所描述的应用、机会和局限性并不全面;因果推断与 AI 之间的关系是双向的,本文主要关注 AI 在因果框架中的应用,而因果思维也可注入 AI 框架;本文聚焦于 AI 在流行病学因果研究中的应用,实际上 AI 在描述性流行病学、证据合成和实施研究等方面也可能发挥重要作用。总之,严谨地将 AI 纳入流行病学研究,有望推动公共卫生领域的因果推断和因果决策。许多 AI 工具尚未得到充分利用,但如果谨慎、合乎伦理地应用,并警惕潜在的陷阱,它们将为流行病学研究带来创新、提高效率并拓展研究范围。虽然目前因果研究无法完全自动化,但预测研究过程中哪些部分可能很快实现严格自动化,将有助于推动流行病学研究作为一个领域的长期发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号