商业数据库LexisNexis在儿童癌症环境流行病学研究中的住宅史可用性及数据一致性预测分析

【字体: 时间:2025年07月27日 来源:JNCI Cancer Spectrum

编辑推荐:

  本研究针对商业数据库LexisNexis在儿童癌症环境流行病学研究中可能引发的信息偏倚问题,通过分析3,573例病例和7,160例对照的住宅史数据,发现母亲种族、教育程度等社会人口因素与数据可用性显著相关,且LexisNexis地址与癌症登记处数据匹配率不足10%。该研究为利用商业数据库进行暴露评估提供了关键方法学警示,发表于《JNCI Cancer Spectrum》。

  

儿童癌症虽属罕见疾病,却是美国85岁以下人群的首要死因,其发病率持续上升的趋势引发广泛关注。在探索环境致癌因素时,研究人员常需回溯患儿生命早期的居住史以评估暴露风险,但传统问卷调查易受回忆偏倚影响。商业数据库LexisNexis虽能提供客观的住宅记录,但其数据覆盖度是否存在人群差异?与官方登记系统的数据一致性如何?这些问题直接关系到环境暴露评估的准确性。

美国加州大学欧文分校环境与职业健康系(Department of Environmental and Occupational Health, University of California, Irvine)的Natalie R. Binczewski团队对此展开深入研究。他们利用加州早发性癌症关联研究(CALSEC)的10,733名儿童数据,结合LexisNexis住宅记录与癌症登记处、出生证明的地址信息,系统评估了数据可用性的预测因素及多源数据一致性。这项开创性工作发表于《JNCI Cancer Spectrum》,为环境流行病学研究提供了重要方法学参考。

研究采用三大关键技术:1)基于人群的病例对照设计,纳入2000-2015年洛杉矶和橙县3,573例儿童癌症病例及7,160例出生年份匹配对照;2)通过LexisNexis批量获取母亲住宅史,使用ESRI Street Map Premium进行地理编码;3)采用线性回归分析数据可用性预测因素,并通过四重地址匹配策略(地理坐标、文本字符串、诊断年份地址、迁移记录)评估数据一致性。

【住宅史可用性预测因素】
通过逻辑回归模型发现,母亲社会人口特征与数据可获性显著相关:墨西哥裔母亲被LexisNexis识别的几率仅为美国本土母亲的1/7(OR=0.14);拥有大学学历者比初中以下学历者识别率高86%(OR=1.86);使用公共医保(Medicare/Medi-Cal)的母亲识别率比商业医保群体低66%(OR=0.34)。值得注意的是,癌症患儿母亲的识别率比对照组高34%(OR=1.34),提示病例数据可能存在系统性偏差。

【多源数据一致性】
地理坐标比对显示:仅47%的出生证明地址与LexisNexis记录匹配;癌症诊断地址匹配率更低至9.55%。文本地址比对(允许4/5字段匹配)将出生地址匹配率提升至61%,但其中24%记录未包含分娩年份。迁移分析发现,LexisNexis显示49.8%病例未搬迁,而官方登记数据仅8%未搬迁,凸显商业数据库可能遗漏短期居住记录。

这项研究揭示了使用商业数据库重构住宅史的三重挑战:首先,数据缺失存在明显人群差异, Hispanic(西班牙裔)和低教育程度群体覆盖率更低,可能导致暴露评估偏差;其次,与金标准数据(癌症登记、出生证明)的低匹配率(<10%-47%)可能引入暴露错分;再者,病例组更高的识别率(OR=1.34)或造成研究效应值的扭曲。

讨论部分强调,尽管LexisNexis能规避回忆偏倚,但其数据质量受制于公共记录完整性——信用卡账户、选民登记等"数字足迹"在不同人群中的分布差异,直接影响了环境流行病学研究的效度。作者建议后续研究应结合多源数据校验,并针对识别率低的群体开发补充数据采集策略。这项研究不仅为儿童癌症环境病因学提供了方法学警示,对成人癌症研究同样具有借鉴意义——在精准医学时代,暴露评估工具的可靠性直接决定病因推断的准确性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号