编辑推荐:
为解决中文电子健康记录(EHRs)医学命名实体识别中数据稀缺、分词歧义等难题,研究人员开展了基于 BPBIC 模型的相关研究。结果显示该模型在增强数据集上表现优异,还能助力医生诊断。这提升了医疗信息化效率,意义重大。
在当今医疗领域,医学信息化已成为医院迈向现代化、科学化、标准化发展的必由之路。大量的患者电子健康记录(EHRs)是支撑医学信息化的关键数据基础。然而,现实却给医学信息提取带来了诸多挑战,多数患者的临床治疗信息以非结构化文本格式存储,如同杂乱无章的 “信息迷宫”,从中有效挖掘数据和识别实体困难重重。而且,中文医学文本信息提取的难度更是雪上加霜,中文独特的字符构成结构和医学实体的嵌套特性,使得在医学命名实体识别任务中,面临着注释数据稀缺、分词歧义性强、实体边界模糊等棘手问题,这大大增加了提取医学命名实体类别的难度,严重阻碍了医学信息技术的进步。
为了攻克这些难题,中南林业科技大学计算机科学与数学学院等机构的研究人员开展了深入研究。他们提出了一种融合对抗训练和特征增强的中文临床命名实体识别模型 ——BPBIC 模型,并将研究成果发表在《Scientific Reports》上。该研究具有重要意义,若能成功实现准确的中文医学命名实体识别,将为医学信息化注入强大动力,帮助医生快速、准确地获取患者信息,提升诊断效率和准确性,为患者的治疗争取宝贵时间。
研究人员为开展此项研究,运用了多种关键技术方法。首先,通过从医疗记录网站爬取文本数据,并借助 YEDDA 工具进行专业注释和处理,扩充了原始数据集,为模型训练提供了更丰富的数据支持。其次,BPBIC 模型融合了 BERT、双向长短期记忆网络(BiLSTM)、迭代深度卷积神经网络(IDCNN)和条件随机字段(CRF)等先进技术。其中,BERT 用于生成文本向量,BiLSTM 负责提取全局信息,IDCNN 专注于提取局部信息,CRF 则用于序列解码以获取全局最优的实体标注结果。此外,还引入了对抗训练(PGD),增强了模型的鲁棒性和泛化能力。
下面来看具体的研究结果:
- 模型性能评估:研究人员使用 CCKS2019 数据集和 IMCS21 中文医学问答数据集对 BPBIC 模型进行性能评估。在 CCKS2019 数据集上,BPBIC 模型相较于 BiLSTM - CRF 基线模型,精度从 82.69% 提升至 91.57%,召回率从 82.44% 提升至 91.97%,F1 分数从 82.55% 提升至 91.77%。在增强后的 CCKS2019 + 数据集上,BPBIC 模型的精度达到 93.80%,召回率为 94.44%,F1 分数为 94.12%。在 IMCS21 数据集上,BPBIC 模型同样表现出色,超越了 ERNIE - Health 模型等,在精度和 F1 分数上分别有 2.29% 和 1.01% 的提升。
- 训练过程分析:对 BPBIC 模型在 CCKS2019 数据集上的训练过程进行分析发现,训练误差损失在 25 轮迭代后逐渐稳定,模型在第 36 轮达到最高训练精度 98.04% 并保持稳定,验证集的平均 F1 分数在训练过程中逐渐增加,在第 51 轮停止增长并稳定在 92% 左右。
- 模型消融实验分析:通过模型消融实验表明,BiLSTM 和 IDCNN 与 CRF 结合进行序列解码,相较于 BiLSTM - CRF 模型,精度、召回率和 F1 分数分别提高了 2.95%、2.25% 和 2.61%。引入 BERT 后,各项指标进一步提升,基线模型 BiLSTM - CRF 的精度、召回率和 F1 分数分别提高了 8.57%、8.44% 和 8.51%。实施 PGD 对抗训练后,模型的精度、召回率和 F1 分数又分别提高了 0.29%、0.66% 和 0.47%。
- 不同模型预测结果比较:将 BPBIC 模型与其他多种中文医学命名实体识别模型进行比较,结果显示 BPBIC 模型的预测结果不仅超越了一些经典模型,如 MHSA - BiLSTM - CRF、ACNN 等,也优于已知的前沿模型。在不同数据集上,BPBIC 模型对各类实体的识别表现良好,尽管部分实体在不同数据集上的指标存在波动,但整体指标平衡,差距在 3% 以内。
- 医学知识图谱分析:利用 Neo4J 软件构建了单患者和多患者 EHRs 的知识图谱。单患者知识图谱围绕患者与六种医疗实体建立关系,如 “疾病和诊断”“检查” 等,通过不同关系类型展示患者信息。多患者知识图谱可视化后,用户可通过节点查看患者基本信息和相关实体,了解疾病进展和治疗等情况。
研究结论表明,BPBIC 模型在中文医学实体提取方面表现出色。它利用对抗 BERT 表示文本词向量,结合 BiLSTM 和 IDCNN 捕获句子的全局和局部特征,通过 CRF 获得序列解码的最优解。研究人员还通过扩充 CCKS2019 数据集,改善了数据集小和实体分布不均的问题,使各模型的评估指标得到提升。此外,构建的医学知识图谱为医生理解患者状况和临床决策提供了有力支持。然而,研究也存在一定的局限性,例如在某些实体的识别上仍有提升空间,未来研究可致力于训练更全面的中文医学文本预训练模型,进一步增强 BPBIC 模型在实体识别任务中的能力,构建更完善的知识图谱,为医学领域的发展提供更强大的助力。