
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于芬兰国家健康数据库的肺炎链球菌大规模风险评估与分类模型研究
【字体: 大 中 小 】 时间:2025年05月27日 来源:Healthcare Analytics CS4.4
编辑推荐:
研究人员利用芬兰国家电子健康记录系统Kanta,开展了一项针对肺炎链球菌(S. pneumoniae)疾病风险的大规模评估与分类研究。通过分析96,200名芬兰居民的健康数据,结合WHO和芬兰健康与福利研究所(THL)指南,建立了基于ICD-10诊断代码的风险分层模型,实现了高风险人群的自动识别。该研究为优化疫苗接种策略提供了数据支持,展示了国家健康数据库在公共卫生决策中的潜力。
肺炎链球菌(S. pneumoniae)是一种对人类健康构成严重威胁的病原体,尤其对婴幼儿、老年人和患有基础疾病的人群危害更大。它可引起从轻度感染如中耳炎、鼻窦炎到危及生命的侵袭性疾病(IPD),包括肺炎、脑膜炎和败血症等。尽管芬兰已将肺炎链球菌疫苗接种纳入国家免疫规划,但目前仅针对幼儿和部分高风险成年人群。如何更精准地识别高风险个体并优化疫苗接种策略,成为公共卫生领域亟待解决的问题。
芬兰的研究团队利用国家电子健康记录系统Kanta,开展了一项大规模研究。Kanta系统收录了芬兰全国范围的医疗数据,包括诊断记录、实验室检查、影像学检查和疫苗接种等信息,为研究提供了可靠的数据基础。研究人员分析了96,200名18岁以上芬兰居民2012年至2022年间的完整治疗记录,重点关注ICD-10诊断代码,建立了肺炎链球菌疾病风险评估模型。
研究采用了多项关键技术方法:首先基于WHO和芬兰健康与福利研究所(THL)指南,确定了22个风险因素组别,对应特定的ICD-10代码;其次开发了从临床文档架构(CDA R2)格式中提取诊断时间线并识别疾病发作的算法;最后构建了风险收集和分类系统,将个体分为无风险、风险、增加风险和高风险四个等级。
研究结果部分,RQ1探讨了肺炎链球菌疾病诊断代码及其风险因素在Kanta患者数据储存库(PDR)中的出现情况。分析显示,肺炎是最常见的疾病表现,在确诊的肺炎链球菌病例中,肺炎和败血症的发生率相近。慢性呼吸系统疾病、慢性心脏病和糖尿病是最常见的风险因素。值得注意的是,65岁以上人群的风险因素数量明显多于年轻人群。
RQ2研究了能否基于Kanta PDR数据识别个体肺炎链球菌风险的发展。研究人员开发了两个版本的风险识别模型:第一个版本仅基于风险因素数量进行分类;第二个版本增加了对既往确诊肺炎链球菌疾病的自动高风险判定。结果显示,无风险类别人数逐年线性下降,这与研究样本中人群年龄增长相关。增加风险类别人数相对较少,表明多数高风险个体往往同时存在多个风险因素。
在回归分析中,研究人员尝试了两种逻辑回归(LR)模型:第一种预测个体是否会获得确诊诊断,第二种增加了对可能诊断的预测。由于确诊案例数量有限,模型预测能力受到限制。分析表明,当从预测因子中移除确诊和可能病例时,模型的F1分数和马修斯相关系数(MCC)显著下降,提示这些信息对预测至关重要。
讨论部分指出,虽然样本量足够代表芬兰成年人群,但确诊的肺炎链球菌病例数量过少,影响了风险模型的建立。这可能反映了芬兰医疗实践中对肺炎链球菌疾病的诊断编码存在问题。研究还探讨了使用其他方法的可能性,如基于树的方法、支持向量机(SVM)、神经网络(NN)等,但指出都需要更大规模的确诊病例数据支持。
该研究的创新性在于首次利用芬兰国家健康数据库实现肺炎链球菌风险的自动识别,为公共卫生干预提供了新工具。然而,研究人员也提醒自动化风险评估可能带来的伦理问题,如数据不完整可能导致风险评估偏差。这些发现对优化芬兰疫苗接种策略具有重要意义,也为其他国家利用健康数据进行类似研究提供了参考。
研究结论强调,Kanta PDR是进行疾病风险因素识别的优质数据源,其由医疗专业人员录入的数据具有较高可靠性。要实现更好的预测效果,未来需要专门收集更多确诊肺炎链球菌病例数据。这项研究不仅展示了国家健康数据库在个体和群体层面风险分析中的价值,也为后续研究确定了合理的数据规模预期。
生物通微信公众号
知名企业招聘