利用非结构化医疗数据和自然语言处理描绘医院糖尿病患者临床特征与患病情况:意义重大的新探索

【字体: 时间:2025年05月09日 来源:Diabetes Research and Clinical Practice 6.1

编辑推荐:

  糖尿病(DM)危害大且患病率上升,临床信息多为非结构化数据,疾病分型易误判。研究人员用自然语言处理(NLP)和机器学习(ML)分析西班牙 8 家医院非结构化电子健康记录(EHRs)。发现 DM 患者中 UrDM 占比高,sT1DM/sT2DM 患病率为 2.6%/38.4% 。为诊疗和防控提供依据。

  在全球范围内,糖尿病(Diabetes Mellitus,DM)正逐渐成为一个严重的公共健康问题。随着人口老龄化加剧、人们生活方式愈发 sedentary(久坐不动)以及饮食结构不健康,糖尿病的患病人数和患病率都在急剧上升。国际糖尿病联盟糖尿病地图集 2021 年的数据显示,全球 20 - 79 岁成年人中糖尿病患病率达 10.5%,75 - 79 岁人群更是高达 24.0% ,而且全球未确诊糖尿病的人群比例估计有 44.7%。在西班牙,全国性队列 Di@bet.es 研究报告其糖尿病患病率为 13.8%(95% CI,12.8 - 14.7%)。
糖尿病患者由于长期处于高血糖状态,还伴有代谢综合征的一些特征,往往合并多种疾病,发生心血管事件的风险也大大增加,这不仅严重影响了患者的预期寿命,还对医疗资源造成了巨大的压力。尽管在疾病管理方面取得了一些进展,某些糖尿病相关严重并发症(如心肌梗死、中风和截肢)的发生率有所下降,但糖尿病相关问题仍然给患者的住院率、住院时长以及医疗费用带来沉重负担,是导致患者发病和死亡的重要原因。

目前,想要深入了解糖尿病的疾病进展并采取更有效的控制措施,面临着诸多挑战。一方面,缺乏全面的疾病患病率和结局登记信息;另一方面,临床信息大多以非结构化数据的形式存在,这使得传统的基于结构化数据或统计方法难以对糖尿病数据进行充分挖掘。此外,虽然临床指南将糖尿病分为 1 型糖尿病(DM1,由 β 细胞破坏引起)、2 型糖尿病(DM2,由胰岛素抵抗驱动)以及其他较少见类型(如遗传性变异、外分泌胰腺疾病、妊娠期糖尿病、药物或化学诱导糖尿病),但在日常收集的数据中,常常存在分类错误和编码不完整的情况,导致许多患者在电子健康记录(Electronic Health Records,EHRs)中糖尿病类型无法明确界定,只能被归类为未记录糖尿病类型(Unrecorded Diabetes Type,UrDM),这对基于真实世界数据(Real - World Data,RWD)的研究分析和结论产生了很大影响。

为了解决这些问题,来自西班牙多家医院的研究人员开展了一项名为 Diabetic@的研究。他们利用自然语言处理(Natural Language Processing,NLP)和机器学习(Machine Learning,ML)技术,对 8 家医院 2013 - 2018 年的非结构化电子健康记录数据进行分析,旨在描绘医院中糖尿病的患病率和临床特征,探索这些数据在糖尿病研究中的潜在价值。该研究成果发表在《Diabetes Research and Clinical Practice》上,为糖尿病的诊疗和防控提供了重要依据。

研究人员采用了多种关键技术方法。首先,他们从 8 家医院的各个科室(包括住院部、门诊部和急诊科)收集了 2013 年 1 月 1 日至 2018 年 12 月 31 日期间的电子健康记录数据。然后,利用 EHRead? 软件(基于 NLP 和 ML 技术)以及 SNOMED_CT 从这些非结构化数据中提取信息。通过这些技术,识别出患有 1 型或 2 型糖尿病(T1DM/T2DM)的个体,并针对未登记类型(UrDM)开发了半监督 ML 分类器 。

在研究结果方面:

  • 糖尿病患者分类及患病率:研究共处理了 2,582,778 人的 56,181,954 份电子健康记录,其中 638,730 人被确定患有糖尿病。这些患者中,UrDM 占比 75.4%,T2DM 占 21.3%,T1DM 占 3.3%。经过 ML 模型重新分类后,93.5% 被归类为 T2DM,6.5% 被归类为 T1DM。最终确定的 1 型糖尿病(sT1DM)和 2 型糖尿病(sT2DM)的患病率分别为 2.6% 和 38.4%。
  • 糖尿病相关并发症:研究发现,糖尿病患者常合并多种疾病,主要的共病包括高血压、血脂异常、慢性肾脏病(Chronic Kidney Disease,CKD)、缺血性心脏病和慢性心力衰竭(Chronic Heart Failure,CHF)。在随访 60 个月时,CKD 和 CHF 分别是 sT1DM 和 sT2DM 最常见的并发症。

研究结论和讨论部分指出,利用 NLP 和 ML 技术分析电子健康记录中的非结构化数据,对于描绘糖尿病的特征是有帮助的。但目前也存在一些问题,比如超过 50% 的相关变量(如人体测量指标、实验室检查值和治疗信息)缺失,这表明还需要更多的数据以及更完善的电子健康记录文档来支持糖尿病的研究和诊疗。这项研究意义重大,它为后续进一步研究糖尿病的发病机制、优化治疗方案以及制定更有效的预防策略提供了参考,也为利用非结构化医疗数据进行疾病研究开辟了新的思路和方法。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号