
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自然语言处理的糖尿病患者低血糖事件识别研究:机器学习在西班牙语电子健康记录中的应用
【字体: 大 中 小 】 时间:2025年05月27日 来源:Healthcare Analytics CS4.4
编辑推荐:
本研究针对糖尿病(DM)患者低血糖事件在电子健康记录(EHRs)中漏诊率高的问题,创新性应用自然语言处理(NLP)和机器学习(ML)技术分析西班牙语临床文本。通过构建多层级感知器(MLP)等算法模型,实现了87%的识别准确率,为西班牙语医疗文本的低血糖自动化监测提供了新范式。
糖尿病是全球范围内威胁人类健康的重大慢性疾病,维持正常血糖水平是治疗核心目标,但治疗过程中频发的低血糖事件(血糖<70 mg/dL)可能引发严重后果。令人担忧的是,电子健康记录(EHRs)中约80%的低血糖事件因记录不规范或症状描述模糊而被漏诊,尤其西班牙语临床文本缺乏有效分析工具。这一现状促使研究者思考:如何从海量非结构化医疗文本中精准捕捉低血糖信号?
来自哥伦比亚EIA大学、罗萨里奥大学和Unisanitas基金会的多学科团队在《Healthcare Analytics》发表创新研究。团队采用自然语言处理(NLP)结合机器学习(ML)的方法,对覆盖哥伦比亚28个州的146,542份西班牙语EHRs进行挖掘。研究首次系统构建了包含认知障碍、震颤等7类症状关键词库,并通过多模型比较发现,多层感知器(MLP)模型以87%准确率成为最优算法,显著提升低血糖事件识别效率。
关键技术方法包括:1) 从哥伦比亚全民医保系统获取2018-2020年23,802名DM患者EHRs;2) 建立症状关键词词典并采用150字符上下文截取策略;3) 应用决策树(DT)、支持向量机(SVM)等6种ML算法对比;4) 通过网格搜索优化超参数,以精确度(PPV)、召回率等指标评估性能。
研究结果部分显示:
讨论指出,该研究突破传统依赖ICD编码的局限,创新点在于:首次实现西班牙语临床文本的低血糖自动化筛查;验证症状关键词库的临床适用性;揭示MLP模型在非结构化文本分类中的优势。局限性包括语境歧义导致的假阳性,未来需结合血糖监测数据提升预测价值。这项成果为拉丁美洲糖尿病管理提供了可推广的智能分析框架,其方法论对其它语言医疗文本分析具有重要借鉴意义。
生物通微信公众号
知名企业招聘