
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多源数据整合的共病测量研究:揭示数据选择对英国生物库中80种长期健康状况评估的影响
【字体: 大 中 小 】 时间:2025年07月10日 来源:Communications Medicine 5.4
编辑推荐:
本研究针对共病(multimorbidity)研究中数据来源选择不一致的问题,利用英国生物库(UK Biobank)172,563名参与者的多源数据(初级诊疗记录、基线评估、医院/癌症登记),系统评估了不同数据源对80种长期健康状况(LTCs)和共病测量的影响。研究发现初级诊疗数据对62种LTCs的识别最优,而医院数据对精神疾病和泌尿系统疾病识别率最低,强调数据选择需根据研究目的明确论证,为提升共病研究的可重复性提供了重要方法学依据。
在人口老龄化加剧的背景下,多病共存(multimorbidity)现象日益成为公共卫生挑战。现有研究面临一个尴尬困境:不同团队使用不同数据源测量相同疾病时,结果差异可能高达数十个百分点。这种"数据源依赖性"严重阻碍了研究结论的可比性和可重复性。更棘手的是,精神健康疾病等特定病症在常规医院数据中几乎"隐形",而初级诊疗记录又存在编码复杂、提取困难等问题。面对这些方法学瓶颈,爱丁堡大学(University of Edinburgh)的研究团队开展了一项开创性研究,通过整合英国生物库(UK Biobank)三大数据源,首次系统评估了数据选择对共病测量的影响,相关成果发表在《Communications Medicine》。
研究团队采用横断面设计,对172,563名40-71岁UK Biobank参与者进行分析。关键技术包括:(1)开发80种LTCs的标准化编码列表(Read v2/CTV3/ICD-10);(2)整合初级诊疗记录、UKB基线评估和医院/癌症登记三重数据源;(3)采用四种共病定义(MLTC 2+、MLTC 3+、MLTC 3+ from 3+和mental-physical multimorbidity);(4)通过比例维恩图量化数据源一致性。
个体LTCs的测量差异
使用三重数据源时,85.1%参与者至少患有一种LTC,63.5%存在共病(≥2种LTC)。数据源间一致性存在显著差异:内分泌代谢疾病表现最佳(中位数32.9%病例被三重数据共同识别),而泌尿系统疾病(0-4.9%)和精神行为障碍(0-12.3%)一致性最低。初级诊疗数据对62种LTCs的识别率最高,尤其在精神健康领域,66.9%病例仅通过该数据源识别。
共病流行率的变化
四种共病定义的流行率均随年龄增长而上升(除mental-physical multimorbidity保持平稳),且女性、白人群体和社会经济弱势群体负担更重。数据源选择显著影响估计值:使用初级诊疗数据时共病检出率最高,医院数据则低估mental-physical multimorbidity达50%。
讨论与意义
该研究揭示了医疗数据生态系统的"信息孤岛"现象——仅4.7%的LTC病例能在三重数据中同时被发现。这种碎片化在精神健康和泌尿系统疾病中尤为突出,反映出医疗体系对这类疾病的关注不足。研究团队公开的标准化编码列表(GitHub仓库mltc-codelists)为后续研究提供了重要工具,其方法学框架也可推广至SNOMED-CT等新型医疗编码系统。
这项研究的重要启示在于:共病研究必须根据目标疾病特征谨慎选择数据源,并对选择进行明确论证。例如研究抑郁症必须包含初级诊疗数据,而某些罕见肿瘤则可依赖医院登记。这种"量体裁衣"的研究范式,将显著提升多病共存研究的科学严谨性和公共卫生价值。
生物通微信公众号
知名企业招聘