综述:关于将电子健康记录(EHR)作为现实世界证据用于发现和验证新药物适应症的调查
《Drug Discovery Today》:A survey of the use of EHR as real-world evidence for discovering and validating new drug indications
【字体:
大
中
小
】
时间:2025年11月22日
来源:Drug Discovery Today 7.5
编辑推荐:
本文系统综述了电子健康记录(EHR)在药物再定位中的应用,涵盖数据来源、处理方法、表征技术及疗效评估的统计框架,探讨了大型语言模型与目标试验模拟在验证中的关键作用,并通过案例研究总结挑战与机遇。
电子健康记录(EHRs)在支持新药物适应症的发现和验证方面,已经成为真实世界证据(RWE)的重要来源。随着医疗数据的积累和分析技术的进步,EHRs正逐渐被用于探索药物的潜在新用途。本文系统地回顾了当前基于EHR的药物再利用方法,涵盖了数据来源、处理方法、表示技术以及验证研究的设计和统计框架。同时,文章也讨论了验证过程中面临的关键挑战,特别是大型语言模型(LLMs)和目标试验模拟(TTE)在其中的作用。通过总结近年来的研究进展和方法学创新,本文为研究人员提供了一个重要的基础资源,帮助他们将真实世界数据转化为具有实际应用价值的药物再利用证据。
药物研发过程通常成本高昂且耗时,平均需要2至30亿美元,并且耗时13至15年。相比之下,药物再利用(或再定位)指的是将已有药物用于新的适应症,这种方法因其相对较低的成本和更快的开发速度而受到广泛关注。在临床前阶段,已经有许多计算和实验方法被用来识别可能的药物-疾病配对。然而,将这些发现转化为临床实践仍需要真实世界证据来验证药物的有效性和安全性。尽管随机对照试验(RCTs)是确认药物效果和安全性的黄金标准,但其成本高、周期长,且由于严格的纳入标准和控制环境,难以推广到更广泛的患者群体。因此,RCTs在临床决策中的贡献比例仅为10%-20%,突显了利用真实世界数据(RWD)作为补充证据的重要性。
随着大规模EHR的出现,药物再利用候选药物的回顾性验证变得更加可行。特别是对于阿尔茨海默病(AD)和新冠病毒(COVID-19)等疾病,动物模型往往无法完全再现疾病的生物学特性,而许多患者还存在多种合并症,这些情况在临床前模型中难以捕捉。因此,EHRs在药物验证中具有不可替代的价值。EHRs包含丰富的患者信息,如人口统计学特征(年龄、种族、性别)、医疗接触记录、实验室结果、生命体征、药物处方和分发、诊断和程序代码、社会经济和生活方式因素、临床笔记(如就诊摘要和病理报告)以及影像数据。此外,EHRs还能够捕捉时间序列数据,这对于分析长期治疗效果和疾病进展至关重要。
为了确保基于EHR的药物再利用研究的可靠性,数据的表示和标准化是关键步骤。由于医疗数据的收集目的各异,格式和结构存在较大差异,因此,统一和准确的数据格式对于实现稳健的分析和多源数据的无缝整合至关重要。数据表示和标准化过程可以分为三个层次:第一层是未经处理的原始数据,如医疗记录、保险索赔、患者自我报告结果、生物样本库等;第二层是标准化或统一的数据集和数据模型,这些模型能够支持跨平台的数据整合和分析;第三层则是标准化词汇表,用于在不同数据库中一致地表示特定的EHR术语。这些步骤对于生成准确的操作性定义并确保结果的一致性和可重复性至关重要。
在处理EHR数据时,需要进行数据预处理和整合,这通常涉及将数据转换为标准化格式,并从多个来源整合数据。此外,数据共享在不同机构之间也面临挑战,因为数据格式的不统一和缺乏标准使得数据整合变得复杂。在实际操作中,研究人员常结合机器学习(ML)技术、内置软件、手动处理以及定制编程来实现结构化和非结构化数据的统一和映射。非结构化数据(如出院小结和临床笔记)由于拼写错误、语法不一致和个体差异,处理起来更具挑战性,但它们也包含了对复杂病例、额外临床细节和临床推理至关重要的信息。因此,需要采用自然语言处理(NLP)和机器学习等先进工具来提取这些数据中的有价值信息。
在EHR研究中,选择合适的研究设计和准确识别研究队列是关键步骤。虽然研究设计的选择取决于具体的研究问题,但EHR研究通常是观察性的,主要采用队列、病例对照或横断面设计。这些设计各有优劣,例如,病例对照研究适用于罕见结局,但难以评估多个结局;队列研究能够提供暴露和结局的时间顺序,适合研究多种结局,但容易受到暴露误分类和随访丢失的影响;而横断面研究虽然适合初步筛选,但难以建立时间关系。因此,在实际应用中,研究者需要根据研究目标和数据特点选择最合适的设计。
此外,药物暴露和结局的定义是EHR研究中的重要环节。大多数研究依赖诊断代码(如ICD或SNOMED CT)来确定疾病的存在或缺失状态,而一些研究则使用替代指标,如药物处方、程序或影像结果。药物暴露的定义同样存在差异,尤其是在新用户和持续用户设计之间。新用户设计通常基于药物开始使用的时间,而持续用户设计则包括正在使用的患者。新用户设计能够减少“不朽时间偏差”(immortal time bias),但需要注意数据的完整性和一致性。在某些情况下,研究者可能需要通过严格的筛选标准,如统计特定时间点的代码数量,来确保暴露和结局的准确性。
为了减少偏倚并提高研究的可靠性,研究者通常采用倾向评分分析(propensity score analysis)等统计方法。倾向评分是一种用于减少观察性研究中治疗组和对照组之间偏倚的统计技术。除了传统的逻辑回归模型,近年来还出现了基于机器学习和深度学习(DL)的倾向评分模型,如在逆概率加权(IPW)框架下的LSTM倾向评分模型。这些模型在某些情况下表现出更好的协变量平衡能力。然而,Zang等人的一项研究发现,基于深度学习的倾向评分模型在实现协变量平衡方面并不总是优于传统的逻辑回归方法。因此,建议在实际研究中探索多种模型,以提高结果的稳健性。
在计算倾向评分之后,研究者可以采用多种方法来估计治疗效果,包括匹配、分层、逆概率治疗加权(IPTW)和协变量调整。倾向评分匹配通过将治疗组和未治疗组的患者配对,使其具有相似的倾向评分,从而创建一个类似于随机对照试验的伪随机化队列。其他方法,如分层分析、回归模型中的协变量调整和IPTW,也旨在实现组间的协变量平衡。这些方法的选择取决于研究问题、研究设计和结局类型(如数值、生存时间或患者数量)。例如,Kaplan-Meier估计用于生存时间数据的分析,而Cox比例风险模型则可以评估协变量对风险率的影响,支持多变量分析。这些统计方法能够为药物再利用提供严格的评估,确保研究结果的可靠性和有效性。
目标试验模拟(TTE)是一种在流行病学和临床研究中用于估计干预因果效应的方法。它通过复制理想随机对照试验(RCTs)的结构和严谨性,利用观察性数据模拟随机化和治疗分配。TTE的优势在于能够减少偏倚和混杂因素,从而提高因果推断的准确性。近年来,许多研究已经成功应用TTE方法,利用真实世界数据(RWD)验证药物再利用的潜力。例如,Zang等人通过模拟数千种药物的试验,识别了针对阿尔茨海默病的新适应症,并在调整混杂因素后进行了验证。类似地,Laifenfeld等人通过模拟帕金森病的临床试验,筛选出可能的候选药物。这些研究展示了TTE在验证缺乏疾病修饰治疗的药物再利用候选药物方面的潜力。
然而,TTE方法也面临一些挑战。首先,定义一个成功的TTE需要明确多个关键要素,如受试者纳入标准、治疗策略、随访时间、结局指标和统计计划。这些要素必须与实际的随机对照试验设计相匹配,以确保模拟的准确性。此外,由于真实世界数据的完整性是一个重要问题,研究者需要确保数据库中的患者至少拥有至少一年的医疗记录,以便识别基线变量。TTE的另一个限制是,由于数据不完整、未测量的混杂因素、研究者标准模糊以及难以复制试验条件、药物依从性和剂量方案,因此需要谨慎设计和控制混杂因素。
真实世界数据在药物监管、健康技术评估和临床指南中的作用仍存在争议。尽管RCTs在验证药物效果和安全性方面具有权威性,但它们的成本高、周期长,且难以推广到广泛的患者群体。相比之下,真实世界数据虽然来源广泛,但其分析结果可能存在偏差,尤其是在数据完整性和混杂因素控制方面。例如,一项研究比较了30项已完成和2项正在进行的RCTs与观察性研究,发现它们之间存在较强的但不完美的一致性(Pearson相关系数为0.82),其中72%的研究达到了统计学显著性。然而,另一项研究发现,只有15%的临床试验可以使用现有的真实世界数据进行复制。此外,对三个糖尿病RCTs在日本数据库中的复制研究也未能得到一致的结果。这些差异表明,真实世界数据在药物验证中的应用仍需谨慎,研究者需要仔细设计和分析,以减少潜在的偏差。
尽管存在这些挑战,近年来基于真实世界数据的药物再利用研究已经取得了显著进展。例如,在过去五年中,许多针对阿尔茨海默病、新冠和癌症的药物再利用候选药物已经被识别和验证。这些研究不仅展示了真实世界数据在药物发现中的潜力,也强调了在数据整合、处理和分析方面需要进一步改进。研究者们正在利用多种技术,如大型语言模型和目标试验模拟,来提高分析的准确性和可靠性。此外,通过系统地搜索Google Scholar和PubMed等数据库,研究者能够识别出最新的药物-疾病配对,并进一步验证其潜在效果。
为了确保研究的科学性和可重复性,数据标准化和处理过程需要严格遵循一定的方法。例如,使用OMOP CDM等标准化数据模型,能够提高数据的可比性和整合能力。同时,FHIR标准的引入也促进了医疗数据的电子交换,使得不同机构之间的数据整合更加高效。此外,研究者还需要处理数据中的缺失值问题,因为EHR数据往往不完整,这可能会影响研究结果的准确性。一些研究已经尝试使用生成对抗网络(GANs)等方法来填补缺失数据,从而提高分析的稳健性。
总的来说,基于EHR的药物再利用研究正处于快速发展阶段,但仍面临诸多挑战。这些挑战包括数据标准化、缺失值处理、混杂因素控制以及研究设计的优化。然而,随着技术的进步和方法的完善,真实世界数据正在成为药物发现和验证的重要工具。未来的研究需要进一步探索如何提高EHR数据的质量和一致性,以及如何更有效地利用这些数据来支持药物再利用的决策。同时,研究者还需要关注数据隐私和访问权限的问题,以确保在使用EHR数据时能够保护患者的信息安全。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号