记录链接中错误发现率估计的创新方法及其在围产期健康研究中的应用

《Statistics in Medicine》:False Discovery Estimation in Record Linkage

【字体: 时间:2025年10月18日 来源:Statistics in Medicine 1.8

编辑推荐:

  本文提出了一种记录链接(RL)中错误发现比例(FDP)估计的新方法,通过引入合成数据模拟非链接记录分布,为任何RL算法提供通用且可靠的FDP评估工具。研究验证了该方法在荷兰围产期登记(PRN)、美国家庭收入与财富调查(SHIW)等真实数据中的有效性,证明其能优化链接参数选择,显著提升后续健康医疗数据分析(如早产风险、衰弱指数演变)的推断可靠性。

  
记录链接(Record Linkage, RL)方法的发展源于构建个体“生命之书”以改善公共健康的理念。在隐私法规约束下,RL通过部分标识变量(如出生年份、邮政编码)概率性地链接来自不同来源的记录。由于这些变量缺乏完美区分实体的能力,RL过程会产生包含错误链接的记录集。因此,评估RL中的错误发现比例(False Discovery Proportion, FDP)对于确保后续分析的可靠性至关重要。
1 引言
整合多源数据能以低成本扩展研究机会。然而,由于不同的数据收集过程和隐私限制,唯一的标识符通常不可用。RL算法通过基于部分标识变量概率性地链接记录来解决这个问题。链接数据包含两种错误:错误链接对和遗漏链接。错误链接对会引入噪声,稀释真实信号,可能导致分析偏差,并高估样本量。相比之下,遗漏链接会减少样本量,增加方差并降低统计效率。量化遗漏链接的错误阴性比例(False Negative Proportion, FNP)尤其困难,而通过FDP解决错误链接对则更为可行。
尽管链接数据在研究中的应用日益增多,但目前尚无普遍适用的链接错误衡量标准。由于链接错误会严重影响统计推断,这凸显了需要强大的工具来估计RL中的FDP。为了弥补这一空白,我们提出了一种通过将合成记录纳入数据来估计FDP的新程序。
2 问题与方法
2.1 RL方法论
考虑链接两个源自同一人群的重叠数据源以构建由其交集定义的研究人群的任务。当没有唯一标识符可用于完美确定哪些记录对属于同一实体时,RL程序必须依赖于两个数据集中都存在的部分标识变量。
我们重点介绍了三种专门为链接两个未标记数据集而开发且代码在R中可用的RL方法:BRL、FastLink和FlexRL。此外,我们还使用了SPLink,这是一种在Python中开发的可扩展概率链接方法,用于研究我们方法随人群中实体数量的可扩展性以及重叠程度变化的交织效应。
概率RL方法通过利用Fellegi-Sunter框架下链接变量的一致性概率或使用后验链接概率来促进FDP估计。截断规则将记录对分类为已链接或未链接,从中可以导出FDP估计值。然而,评估FDP仍然具有挑战性,因为这样的估计通常在RL的开源实现中不可用,并且其可靠性取决于所使用的RL模型。
2.2 估计程序
为了估计链接数据集A和B的RL任务中的FDP,我们建议通过从数据集B的估计经验分布中抽样m个合成记录来增强文件B。我们将增强后的文件记为B+,它是文件B与其估计经验分布中合成的记录的串联。通过使用RL算法链接文件A和增强文件B+,我们可以借助与合成记录形成的配对来估计错误链接记录的数量。
我们提出的程序在以下条件下生成FDP的无偏估计量:
i. 合成记录代表来自B不形成链接的记录。
ii. 合成记录对RL过程的影响极小。
当这些条件成立时,可以证明我们提出的估计量是真实FDP的无偏估计。该程序的流程总结为:合成数据、增强文件、运行RL、区分类别、估计FDP。
通过应用所提出的方法,研究人员可以获得一系列链接数据子集及其相应的FDP估计值。用于定义链接数据子集的阈值τ越高,链接集越严格,因此FDP和估计的FDP越低。需要在期望的估计FDP和足够用于推断的观测数量之间找到平衡。
2.3 数据合成器
良好的数据合成对我们的方法至关重要。我们选择了两种基于R和Python软件可用性及计算可行性的方法:synthpop和arf。synthpop使用顺序建模从拟合原始数据的条件分布生成合成数据的每一列。arf使用生成式建模,即对抗性随机森林,从原始数据的估计密度中合成数据。两种方法在负对数似然方面表现相似。
RL通常依赖于分类变量,这可能使合成速度非常慢,尤其是当这些变量基数很高时。为了简化合成,建议将高基数变量的值分组为更高级别的类别。需要使用可解释的AI技术来评估合成表格数据的质量,例如训练分类器区分真实数据和合成数据,并使用AUC作为边际解释的主要工具。
3 合成数据的来源
为了用合成链接对估计错误阳性,我们可以在文件A或文件B中合成记录。我们调查了三种生成代表非链接的合成数据的程序。基于实际数据应用中的观察和理论考虑,我们认为更合理的方法是在文件B(最大的文件)中合成记录,并使用合成记录与文件A中真实记录形成的配对来估计错误阳性。因此,我们运行RL介于文件A和增强文件B+之间。
4 合成集大小的影响
RL的性能取决于要链接的集合的大小。理想情况下,为了通过添加合成数据使RL结果的变化最小,应在文件B中生成单个合成记录。由于时间和资源限制,这种方法不切实际。
我们观察到,在不同规模的数据集(无论是否使用分块)中,当生成至少占文件B大小10%的合成记录(m = 0.1 * nB)时,FDP估计值会趋于稳定。虽然增加合成记录数量可以减少估计量的方差,但也会增加计算量,并可能改变RL算法的行为,使其更加保守。合成集的大小应平衡这些方面。
5 可扩展性
RL建模对链接变量的低区分能力、数据集中实体数量的增加以及数据集之间通常有限的重叠很敏感。为了说明该方法在底层实体数量方面的可扩展性,我们使用了SPLink方法。
模拟结果表明,即使在有10万个和20万个记录的大规模设置下,我们的程序也能产生可靠的FDP估计。真实FDP随着重叠度的增加而降低。我们的程序在所有呈现的情况下都产生了可靠的FDP估计,证明了其在大规模应用中的可行性。
6 对假设的稳健性
我们方法的主要假设是,我们能够从非链接记录的分布中抽样。到目前为止,我们假设链接是随机发生的。结果表明,我们的方法对偏离“链接随机发生”这一假设的情况具有相当的稳健性。此外,我们还证明了我们的方法对数据中存在重复记录的稳健性。在所有情况下,我们的FDP估计都是可靠的,我们程序的百分比偏差保持在10%以下。
7 应用
7.1 真实数据应用中的FDP估计
我们在意大利人口调查(SHIW)数据以及美国纵向调查(NLTCS)数据上评估了我们的估计方法,这些数据提供了唯一标识符。然后我们将该方法应用于荷兰围产期数据(PRN)。
结果表明,我们的FDP估计程序在不同RL方法和数据合成器上的平均偏差百分比约为15%。我们的FDP估计程序在大型和小型数据集(无论是否分块)上都表现良好,并且能够提供FDP的准确数量级。当概率估计可用时,它可以与我们的方法一起评估,但通常,我们的方法仍然是更准确和适用的选择。
7.2 FDP估计:改进链接数据推断的工具
从链接数据中得出的推断会因链接过程固有的缺陷而受到影响。我们从之前的表格中看到,概率FDP估计通常不可靠。因此,需要一种独立于链接过程本身的RL错误发现估计程序,以评估任何链接方法在任何上下文中的FDP,并为分析提供其数据可靠性的信息。我们的程序满足了这些需求。
我们通过三个应用实例展示了FDP估计的重要性:链接PRN数据以估计第二胎的早产风险;链接SHIW数据并拟合线性模型;链接NLTCS数据以根据1982年的衰弱指数(Frailty Index, FI)解释1994年的FI。这些例子表明,能够估计FDP从而调整RL参数以获得可靠链接数据的重要性。
8 讨论
提供可靠的FDP估计工具对于RL的下游应用得以有意义地进行至关重要。我们提供了一种无偏的程序来推导RL中FDP的估计值,从而允许优化RL参数以改进推断。
我们的方法在具有弱链接变量的复杂RL任务中特别有用,在这种任务中,链接分数受到标准简化假设的影响。它依赖于链接状态不依赖于任何观察到的机制这一现实假设,并且在偏离该假设的情况下仍然稳健。它是一种通用方法,可用于任何RL算法,因此独立于底层RL模型。
基于这些结果,我们建议合成一个包含最大原始源中记录数10%的小记录集,以避免影响RL过程。使用合成链接数据来近似错误链接记录的真实数量,可以推导出FDP的无偏估计。我们认为,遵循这种简单的RL中FDP估计方法可以显著拓宽RL方法的适用性,因为我们已经证明,调整RL以获得具有可接受FDP的链接数据集非常重要,这随后可以改进推断。
由于FDP只关注错误链接的记录,它无法捕捉链接偏差(linkage bias)。虽然这不是我们工作的重点,但合成数据也可以以补充的方式用于详细说明遗漏链接并评估链接偏差。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号