基于自然语言处理的糖尿病患者低血糖事件识别研究:机器学习在西班牙语电子健康记录中的应用

【字体: 时间:2025年05月27日 来源:Healthcare Analytics CS4.4

编辑推荐:

  本研究针对糖尿病(DM)患者低血糖事件在电子健康记录(EHRs)中漏诊率高的问题,创新性应用自然语言处理(NLP)和机器学习(ML)技术分析西班牙语临床文本。通过构建多层级感知器(MLP)等算法模型,实现了87%的识别准确率,为西班牙语医疗文本的低血糖自动化监测提供了新范式。

  

糖尿病是全球范围内威胁人类健康的重大慢性疾病,维持正常血糖水平是治疗核心目标,但治疗过程中频发的低血糖事件(血糖<70 mg/dL)可能引发严重后果。令人担忧的是,电子健康记录(EHRs)中约80%的低血糖事件因记录不规范或症状描述模糊而被漏诊,尤其西班牙语临床文本缺乏有效分析工具。这一现状促使研究者思考:如何从海量非结构化医疗文本中精准捕捉低血糖信号?

来自哥伦比亚EIA大学、罗萨里奥大学和Unisanitas基金会的多学科团队在《Healthcare Analytics》发表创新研究。团队采用自然语言处理(NLP)结合机器学习(ML)的方法,对覆盖哥伦比亚28个州的146,542份西班牙语EHRs进行挖掘。研究首次系统构建了包含认知障碍、震颤等7类症状关键词库,并通过多模型比较发现,多层感知器(MLP)模型以87%准确率成为最优算法,显著提升低血糖事件识别效率。

关键技术方法包括:1) 从哥伦比亚全民医保系统获取2018-2020年23,802名DM患者EHRs;2) 建立症状关键词词典并采用150字符上下文截取策略;3) 应用决策树(DT)、支持向量机(SVM)等6种ML算法对比;4) 通过网格搜索优化超参数,以精确度(PPV)、召回率等指标评估性能。

研究结果部分显示:

  1. 患者特征:65岁±12.08岁女性占57.5%,平均HbA1c为7.08%±1.09
  2. 事件识别:3,033条记录(2%)确认低血糖关联,易怒(3,695例)和心血管症状(2,187例)最常见
  3. 模型性能:MLP模型表现最优(PPV=0.89,F1=0.86),震颤识别达100%准确率
  4. 症状谱系:神经源性(出汗、心悸)与神经低血糖性(认知障碍、视力模糊)症状分布差异显著

讨论指出,该研究突破传统依赖ICD编码的局限,创新点在于:首次实现西班牙语临床文本的低血糖自动化筛查;验证症状关键词库的临床适用性;揭示MLP模型在非结构化文本分类中的优势。局限性包括语境歧义导致的假阳性,未来需结合血糖监测数据提升预测价值。这项成果为拉丁美洲糖尿病管理提供了可推广的智能分析框架,其方法论对其它语言医疗文本分析具有重要借鉴意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号