
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于BETO模型的命名实体识别技术在药物过敏临床决策支持系统中的应用与验证
【字体: 大 中 小 】 时间:2025年06月13日 来源:Mayo Clinic Proceedings: Digital Health
编辑推荐:
本研究针对西班牙语临床文本中药物过敏信息提取的难题,开发了基于BETO的命名实体识别(NER)模型。通过16,176条标注实体训练和80,917份处方验证,模型在药物名称(F1=0.91)和不良反应(F1=0.85)识别表现优异,临床验证特异性达99.98%,为西班牙语医疗场景下的用药安全决策支持提供了可行方案。
在医疗信息化快速发展的今天,药物处方安全仍是全球性挑战。尽管计算机化医嘱录入(CPOE)系统已广泛应用,但药物过敏信息的自由文本记录方式严重制约了临床决策支持(CDS)系统的效能。据统计,约0.25%的用药错误与过敏相关,虽比例不高却可能导致严重后果。尤其在使用西班牙语等资源较少的语言环境中,缺乏有效的自然语言处理(NLP)工具使得这一问题更加突出。
哥伦比亚的研究团队在《Mayo Clinic Proceedings: Digital Health》发表的研究,创新性地将西班牙语BERT变体BETO应用于过敏实体识别。研究采用16,176条人工标注的住院患者过敏记录进行模型微调,通过保守训练策略(学习率2×10-5
,5个epoch)避免灾难性遗忘。在80,917份真实处方验证中,模型以99.98%的特异性和0.7797的Kappa值,证实了其在西班牙语临床环境的应用价值。
关键技术方法包括:1)基于16,176条标注实体的BIO序列标注体系;2)BETO模型分层微调策略;3)使用80/20分组的训练-测试集划分;4)TPU加速训练;5)对5,859名患者80,917份处方进行临床验证,以药师人工复核为金标准。
【结果】
Abstract:模型总体准确率87.28%,F1-score 0.80。在药物名称(B-Medicamento)识别表现最佳(F1=0.91),但推荐类实体识别较差(F1=0.29)。
Patients & Methods:采用CONLL-2003标准的BIO标注方案,通过单药师标注确保临床合理性,使用分层抽样保证数据平衡。
Results:临床验证检出0.96%的处方错误,敏感性75.73%,特异性99.98%。假阴性主要涉及昂丹司琼(4例)、螺内酯(3例)等药物。
Discussion:模型在排除非过敏病例(NPV 99.97%)方面表现突出,但受限于临床文本的表述差异,对推荐类实体和否定表述识别不足。
【结论与意义】
该研究首次证实西班牙语BERT变体在临床NER任务中的可行性,为资源较少语言的医疗NLP应用提供了范式。模型的高特异性(99.98%)使其适合集成到CDS系统,可有效减少因自由文本记录导致的过敏警报遗漏。尽管存在敏感性不足(75.73%)和断言检测缺失等局限,这项工作为西班牙语国家的用药安全系统建设奠定了技术基础,其分层微调策略对类似语言的临床NLP开发具有参考价值。未来通过纳入多中心数据和增强否定检测,有望进一步提升模型的临床应用潜力。
生物通微信公众号
知名企业招聘