基于行政与调查数据对比的儿童青少年慢性躯体健康问题识别算法开发与验证研究
《BMC Pediatrics》:Child and youth chronic physical health conditions: a comparison of survey data and linked administrative health data in Ontario
【字体:
大
中
小
】
时间:2025年10月03日
来源:BMC Pediatrics 2
编辑推荐:
为解决儿童青少年慢性躯体健康问题(CHC)识别标准不一、数据来源差异大等问题,研究人员基于2014年安大略省儿童健康研究(OCHS)队列,开发并验证了一种结合诊断代码、就诊次数和回顾期的CHC识别算法。研究发现,行政数据与家长报告数据间一致性较差(Cohen's k=0.17),且不同疾病(如糖尿病k=0.77)差异显著。该研究强调了利用多源数据开发复杂算法对于准确测量儿童慢性病的重要性。
在儿童健康领域,慢性躯体健康问题(Chronic Health Condition, CHC)是一个普遍且影响深远的公共卫生议题。据估计,在加拿大和美国,约有20%至30%的儿童和青少年受到慢性健康问题的影响。然而,准确测量这一人群的CHC患病率却面临着巨大的挑战。一方面,不同研究对“慢性”的定义千差万别;另一方面,用于识别CHC的算法往往只关注少数几种常见疾病,导致许多复杂的、不常见的慢性病被遗漏。
为了更全面地了解儿童的健康状况,研究人员常常求助于行政健康数据。这些数据记录了儿童在医疗机构就诊时留下的诊断代码,具有成本低、覆盖广、信息量大等优点。但行政数据也存在“硬伤”:医生在填写诊断时可能不完整,或者一个诊断代码可能对应多种不同的疾病,这使得单纯依靠诊断代码来识别慢性病变得不可靠。因此,开发一种能够综合考虑诊断、就诊频率和疾病持续时间等多维信息的算法,成为准确识别CHC的关键。
为了回答这一科学问题,来自西安大略大学(The University of Western Ontario)的Grace Golden及其团队在《BMC Pediatrics》杂志上发表了一项重要研究。他们利用2014年安大略省儿童健康研究(OCHS)的队列数据,开发了一种全新的CHC识别算法,并将其与家长报告的数据进行对比,旨在揭示不同数据来源在识别儿童慢性病方面的差异,并探索影响这些差异的社会人口学因素。
- 1.数据来源与链接:研究核心数据来源于2014年安大略省儿童健康研究(OCHS)的横断面调查数据,该调查覆盖了安大略省12,000多个家庭。研究人员将调查数据与安大略省健康保险计划(OHIP)的行政健康数据进行了链接,最终纳入9,253名4至17岁的儿童和青少年进行分析。
- 2.算法开发:研究人员开发了一种慢性健康问题(CHC)识别算法。该算法基于三个核心要素:诊断代码(基于儿科复杂慢性病分类系统CCC v2和文献回顾)、就诊次数(至少2次)以及回顾期(最长4年)。对于不同疾病,算法设定了不同的回顾期和就诊次数阈值。
- 3.统计分析:研究采用未加权患病率估计和一致性分析(Cohen's Kappa、敏感度、特异度)来比较基于算法的行政数据与家长报告的CHC识别结果。此外,还使用多项逻辑回归模型分析了社会人口学变量与CHC识别状态(无CHC、仅行政数据识别、仅调查数据识别、两者均识别)之间的关联。
研究首先比较了基于行政数据和家长报告的CHC总体患病率。结果显示,两者之间存在显著差异。当使用初始算法(回顾期2年)时,行政数据识别出的CHC患病率为31.67%,而家长报告的患病率为27.05%。随着回顾期延长至3年和4年,行政数据识别出的患病率进一步升高至41.74%和50.72%。由于4年回顾期识别出的患病率过高,研究人员调整了算法,将部分疾病的确诊标准从“2次就诊”提高至“3次就诊”。调整后,2年、3年和4年回顾期的患病率分别降至23.46%、31.76%和39.66%。
在一致性方面,行政数据与家长报告数据的一致性较差。无论是初始算法还是调整后的算法,Cohen's Kappa值均处于较低水平(0.11至0.17),表明两种方法识别出的CHC人群重叠度很低。敏感度和特异度指标也显示,两种数据来源在识别CHC方面存在较大分歧。
为了深入理解这种差异,研究人员选取了两种家长通常能明确识别的慢性病——糖尿病和心脏病——进行单独分析。结果显示,糖尿病在行政数据和调查数据之间的一致性非常高(Cohen's k=0.77),而心脏病的一致性仅为一般水平(Cohen's k=0.21)。这表明,不同疾病类型在数据来源间的一致性存在显著差异。
研究人员通过多项逻辑回归模型,分析了儿童年龄、性别、家庭收入、父母教育水平以及健康效用指数(HUI)等因素与CHC识别状态的关系。结果发现:
- •年龄:年龄是影响CHC识别状态的关键因素。与4-11岁的儿童相比,12-17岁的青少年更可能仅通过调查数据被识别为CHC,而更不可能仅通过行政数据被识别为CHC。
- •健康问题严重程度:健康效用指数(HUI)是预测调查数据识别CHC的最强因素。与没有健康问题的儿童相比,有轻度、中度和重度健康问题的儿童,其通过调查数据被识别为CHC的风险分别增加了74%、59%和209%。
- •其他因素:儿童性别、父母教育水平、家庭结构和收入水平与CHC的识别状态没有显著关联。
本研究成功开发并验证了一种用于识别儿童青少年慢性躯体健康问题(CHC)的算法。该算法综合考虑了诊断代码、就诊次数和回顾期,能够更全面地捕捉行政数据中的慢性病信息。研究的主要结论和意义如下:
- 1.数据来源间的显著差异:研究证实,行政健康数据与家长报告数据在识别儿童CHC方面存在显著差异。行政数据通常识别出更高的患病率,这可能是因为算法捕捉到了家长可能遗忘或未报告的疾病,也可能是因为算法将一些急性或已治愈的疾病误判为慢性病。
- 2.疾病特异性差异:不同疾病在数据来源间的一致性存在巨大差异。对于糖尿病这类诊断明确、管理规范的疾病,行政数据与调查数据高度一致;而对于心脏病等疾病,一致性则较低。这提示我们,在利用行政数据研究特定疾病时,必须谨慎评估其有效性。
- 3.年龄与健康状态的影响:研究发现,年龄和健康问题的严重程度是影响CHC识别状态的重要因素。青少年更可能通过调查数据被识别为CHC,而年幼儿童则更可能通过行政数据被识别。此外,健康问题越严重,越容易被调查数据识别。这表明,行政数据可能更擅长捕捉需要频繁就医的疾病,而调查数据则更敏感于影响生活质量的健康问题。
- 4.研究意义与未来方向:本研究强调了利用多源数据开发复杂算法对于准确测量儿童慢性病的重要性。未来的研究应进一步验证该算法在特定疾病上的有效性,并将其与电子病历中的问题列表或医生诊断进行比较,以提高其准确性。同时,研究者在使用行政数据时,应充分认识到其局限性,并结合其他数据来源,以获得更全面的儿童健康状况信息。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号