基于动态实体替换与掩码策略的肝癌知识图谱构建:融合临床电子病历的RoBERTa-wwm-large-BiLSTM-CRF模型研究

《Frontiers in Artificial Intelligence》:Liver cancer knowledge graph construction based on dynamic entity replacement and masking strategies RoBERTa-wwm-large-BiLSTM-CRF model with clinical Chinese EMRs

【字体: 时间:2025年10月18日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本刊推荐:本研究创新性地提出了一种结合动态实体替换与掩码策略(DERM)的命名实体识别(NER)模型——DERM-RoBERTa-wwm-large-BiLSTM-CRF,成功构建了首个基于真实世界肝癌电子病历(RLC-EMRs)的中文肝癌知识图谱(KG)。该图谱包含46,364个实体和296,655条语义关系,在公开数据集CMeEE-v2上F1分数达68.84%,在私有RLC-EMRs数据集上精确率、召回率和F1分数分别高达93.23%、94.69%和93.96%。研究通过TF-IDF算法进行知识融合,并基于Neo4j开发了可查询并发症、药物等信息的智能检索系统,为肝癌临床决策支持提供了结构化知识基础。

  
引言
肝癌是全球癌症相关死亡的主要原因之一,尤其在中国,其发病率和死亡率分别位居全国第四和第二,构成了重大的公共卫生负担。最常见的原发性肝癌是肝细胞癌(HCC),占病例的75-85%。肝癌术后并发症包括感染、出血、肝功能衰竭和各种全身性并发症,这些并发症显著影响患者预后和生活质量。肝癌管理的复杂性及其相关并发症迫切需要一种能够可视化并分析各种风险因素、并发症和治疗之间复杂关系的工具。知识图谱(KG)作为一种结构化的知识表示方法,在此背景下显示出巨大潜力。KG由谷歌于2012年首次提出,它将现实世界中的实体(如疾病、药物、症状、手术)以及实体之间的关系(如药物治疗关系、疾病-症状关联关系)编码为图形结构。在医疗领域,通过构建医学KG,可以高效地组织、检索和推理医学知识,从而促进临床决策支持、用药推荐和疾病预测等应用。
然而,现有的肝癌特异性KG大多源自文献或公共数据库,缺乏与真实世界临床数据(如电子病历,EMRs)的整合,且目前尚无公开可用的肝癌专用KG,这在结构化临床知识资源方面造成了关键空白。现有的医疗KG构建研究主要依赖医学文献和专业网站作为数据源,特别是在糖尿病、COVID-19等专业疾病领域。尽管最近在肝癌特异性应用方面取得了进展,包括基于图的本体丰富和链接预测方法,以及肝病研究中图论的综述,但这些工作明显缺乏与真实临床数据的整合。因此,构建一个包含真实临床数据的综合性肝癌KG仍然是一个紧迫的挑战。
相关研究
医学命名实体识别(NER)是自然语言处理(NLP)的一个关键方面,专注于从医学文献中提取具有明确含义的实体,包括疾病、症状和药物等。近年来,深度学习方法的演进显著推动了中文医学NER的发展。在深度学习广泛应用之前,该领域的传统方法主要利用规则驱动和统计方法。规则技术依赖于预定义规则和特定领域词典进行实体识别,利用正则表达式和词典查询等工具。统计模型,包括隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)和条件随机场(CRF)也经常被使用。这些传统方法具有实现简单、准确性高且在特定场景下计算需求少等优点,但它们依赖于领域专家制定的规则和词典,需要大量人工参与,难以处理复杂灵活的语言现象,且泛化能力较弱。
随着词向量技术(如word2vec、Glove)的发展,中文医学实体识别(CMNER)领域取得了突破。词向量可以将词表征为连续的高维向量,从而提高了模型捕捉词语义的能力。通过无监督学习,可以从大量未标记数据中学习词向量,并有效捕捉词之间的语义关系。然而,词向量表示对于新词或多义词的表示不准确。近年来,深度学习技术已广泛应用于中文医学NER。主要方法包括卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)。这些方法可以有效捕捉文本的局部特征和长距离依赖关系,从而提高NER的准确性。它们能够自动学习文本的局部特征和长距离依赖关系,为复杂灵活的语言现象提供更好的建模。然而,这些方法需要大量标记数据进行训练,且训练过程耗时。
随着预训练模型的出现,如BERT、RoBERTa和GPT-3,中文医学NER研究进入了新时代。例如,有研究引入了一种基于TENER的预训练模型,将NER任务分为两个分支:一个用于识别实体边界,另一个用于分类实体类型。另一项研究将基于邻近词汇的分割同义句合成(SSSS)算法与RoBERTa-BiLSTM-CRF相结合,在CCKS-2017数据集上F1分数达到了91.30%和91.35%。
医学知识图谱的构建面临着知识分布分散、语法独特和术语非标准化等挑战。为了应对这些挑战,研究人员采取了多种方法来构建中文医学KG。例如,有研究者提出了一种称为条件关系变分自编码器的生成框架,旨在简化中文医学文本语料库的数据预处理并减少手动标注的需求。为了改进临床电子病历(CEMRs)中的NER和关系提取任务,研究人员利用了先进的深度学习技术。另一项研究开发了一个健康KG的综合框架,专注于心血管疾病电子病历(EMRs)。还有研究调查了如何开发和利用一个从中国古代文本中提取的“以知识为中心”的中医KG。然而,单向语义关系不足以完全代表患者医疗过程的复杂性。例如,疾病和诊断程序之间的语义链接既包括识别疾病,也包括通过详细的医学评估来发现疾病。
有研究引入了一种使用大规模EMRs构建医学KG的结构化方法,产生了一个包含9个不同实体类别、22,508个独立实体和579,094个四元组的KG。另一项研究开发了一个旨在从CEMRs构建消化系统肿瘤KG的框架,实现了语义驱动的消化系统肿瘤知识图谱(DSTKG)。还有研究采用观察性医疗结果合作计划(OMOP)词汇表和统一语义框架来标准化本地EHR数据集以构建KG。
医学KG的应用,如中医语义网,已经引起了研究人员和医疗部门的极大兴趣。它们在智能用例中的价值,如分析性数据挖掘和个性化用药建议,尤其值得注意。例如,有研究者引入了一个安全用药推荐(SMR)框架,将该任务框定为链接预测挑战。
本研究在从CEMRs构建肝癌KG方面与以往的努力有几个关键区别:(1)它引入了第一个专门为肝癌量身定制的KG,不同于先前研究中常见的通用医学KG;(2)它涉及将CEMRs中的疾病、治疗和手术记录等实体与在线医学知识库进行标准化和互连;(3)增加了KG的下游应用,而不是像以前的工作那样只关注构建KG的具体步骤。
研究方法
本研究概述了一种从真实世界肝癌电子病历(RLC-EMRs)构建肝癌KG的结构化方法。该框架包括七个关键步骤:数据准备、概念层构建、数据预处理、实体识别、知识融合、KG构建与可视化及质量评估,以及KG应用。
数据准备阶段使用了公开可用的CMeEE-v2数据集和私有数据集RLC-EMRs。CMeEE-v2数据集是一个广泛使用的中文生物医学NER基准,包含约23,000个标注的医学句子,涵盖九类医学实体。RLC-EMRs数据集由三部分组成:来自南方医科大学珠江医院的CEMRs、专业医学网站XYWY.com和临床医学术语2019版(CCMT-2019)。CEMRs包含了2015年至2020年间304名肝癌患者的EMRs,记录了患者的入院记录、病历、手术记录和出院摘要等信息。所有患者入院时均提供了书面知情同意书,允许将其临床数据用于研究目的。为确保创建高质量的临床语料库,研究者与珠江医院的医生合作制定了一套严格的筛选标准。
概念层设计基于医院专家的建议和RLC-EMRs数据集的特点,定义了11种肝癌实体类型,包括患者、检查、症状、疾病、既往史(PH)、手术记录(OR)、治疗方案(TO)、体格检查(PE)、食物、药物和科室。同时,根据KG构建的三要素原则,定义了11种实体间的关系和属性。
数据预处理包括对选定的EMRs进行去标识化处理以确保患者隐私,以及应用规范化来标准化临床文本并提高标注一致性。随后,使用Colabeler对真实世界中文EMRs进行标注,标注结果保存为Ann-Brat格式。
命名实体识别核心是提出的DERM-RoBERTa-wwm-large-BiLSTM-CRF深度学习模型。该模型首先通过DERM模块对输入序列中的医学实体进行标准化术语替换或部分文本掩码。然后,处理后的文本被送入RoBERTa-wwm-large模型以获得高维向量表示。接着,向量表示被输入BiLSTM网络以提取序列的上下文依赖关系。最后,BiLSTM层的输出被组合并传递到CRF层进行解码,以输出标签依赖关系并确保有效的标签序列。
DERM是一种用于处理NLP任务中实体的策略,它有助于解决数据的稀缺性和不平衡性问题。首先,为不同的实体(包括疾病、症状、治疗和检查)构建词典,然后在训练过程中对EMRs的文本执行动态实体替换和掩码。替换和掩码策略基于随机数(RN)决定:若RN < 0.3,则用词典中的实体替换序列中的实体;若0.3 ≤ RN < 0.6,则使用掩码策略;若RN ≥ 0.6,则序列中的实体保持不变。
RoBERTa-wwm-large模型因其在处理中文文本方面的独特优势而被选中。其全词掩码(WWM)策略更适合捕捉由多个字符组成的中文词语的整体语义,从而减轻潜在的分词歧义。此外,RoBERTa采用了更强大的预训练方法,通过训练更大规模的语料库、使用动态掩码和移除下一句预测(NSP)目标来优化原始BERT架构,从而产生更强大和细致入微的上下文嵌入。
输入序列首先使用字节对编码(BPE)进行标记化,并加入特殊标记[CLS]和[SEP]。每个标记被映射到包含标记嵌入(Et)、位置嵌入(Ep)和段嵌入(Es)的高维嵌入。然后,输入通过多个Transformer编码器层,每层使用自注意力机制更新标记表示。自注意力机制通过查询(Q)、键(K)和值(V)矩阵计算,并采用多头注意力来捕获不同的语义关系。最终,RoBERTa-wwm-large的输出是一个嵌入序列。
BiLSTM模块从输入嵌入的前向和后向捕获长期依赖关系和上下文信息。前向LSTM处理嵌入序列以获得前向隐藏状态序列,后向LSTM处理后向隐藏状态序列。在每个时间步,前向和后向隐藏状态被连接起来形成组合表示,确保每个标记表示都包含了前后文信息。然后,基于BiLSTM隐藏状态计算得分序列。
CRF模块通过联合建模整个序列的关系来确保预测标签彼此一致,而不是对每个标记进行独立预测。CRF层为输入序列的标签分配一个分数,该分数由标记发射分数和标签转移分数之和构成。序列的概率通过softmax函数计算所有可能标签序列的得分。在推理时,目标是找到得分最高的标签序列。
知识融合(KF)旨在解决KG构建中的数据冗余、不一致和不完整性问题,从而提高最终KG的质量和效用。在真实世界的中文EMRs中,由于不同医生的记录习惯和术语不同,实体名称存在不一致。此外,EMRs中的实体名称与XYWY.com等专业网站上的实体名称也存在不一致。例如,EMRs中可能使用“原发性肝细胞癌”,而XYWY.com使用简化的“原发性肝癌”。这种术语差异会导致实体识别、信息提取和KG构建出现问题。因此,需要进行KF将不同的实体映射到一个标准实体。
本研究利用词频-逆文档频率(TF-IDF)进行KF。TF-IDF是一种统计技术,用于衡量实体在语料库中的相关性。TF衡量一个实体在文档中出现的频率,IDF衡量一个实体在整个语料库中的区分度。TF-IDF值是TF和IDF值的乘积。然后,计算输入实体与参考语料库中实体的TF-IDF向量之间的余弦相似度。余弦相似度越接近1,表示两个实体之间的相似度越高。对于疾病和症状实体,使用XYWY.com作为参考语料库进行规范化;对于其他临床实体,如治疗和手术记录,使用CCMT-2019作为参考语料库进行规范化。研究者还提出了一种算法,该算法整合了TF-IDF相似度计算和基于阈值的决策,用于自动和手动的实体映射。该算法采用三层映射策略:高置信度匹配(相似度 > 0.75)自动映射;中等置信度匹配(0.6 ≤ 相似度 ≤ 0.75)人工审核;低置信度匹配(相似度 < 0.6)拒绝映射,以防止错误映射引入噪声。
知识图谱构建、可视化与质量评估使用Neo4j图数据库来构建肝癌KG。Neo4j支持ACID兼容的事务,确保数据完整性,并使用专为查询图数据而设计的Cypher查询语言。为了增强图的可读性,不同层级的节点用颜色区分,例如“疾病”节点为黄色,“症状”节点为绿色,语义关系也用特定颜色区分。最终构建的肝癌KG包含46,364个实体和296,655条语义关系,涵盖了症状、治疗方案和体格检查等广泛的肝癌相关主题。
KG的事实质量使用三元组准确性进行量化。该指标定义为在所有可评估的抽样三元组中,临床正确的三元组所占的比例。研究者从最终的去标识化KG中抽取了500个三元组进行分层随机抽样,分层基于主要关系类型。专家对每个三元组进行标注(正确、不正确、上下文不足)。三元组准确性(TAcc)计算为正确三元组数量除以可评估三元组数量。上下文不足的三元组被排除在计算之外,其比例单独报告。
研究结果
评估指标采用精确率(P)、召回率(R)和F1分数(F1)来定量评估NER模型的性能。真阳性(TP)表示预测实体与真实实体在类型和边界上完全匹配的数量;假阳性(FP)表示预测了不存在于真实情况中的实体;假阴性(FN)表示模型未检测到的真实实体。
在CMeEE-v2数据集上的实验结果表明,DERM-RoBERTa-wwm-large-BiLSTM-CRF模型显著优于现有的基线模型。该模型的F1分数达到了68.84%,精确率为68.50%,召回率为69.18%。这比TPORE(F1分数64.94%)和FLAT(F1分数64.03%)有显著提高。此外,该模型也超过了最近的基于大语言模型(LLM)的方法,如采用高级解码策略的ChatGLM-6B(F1分数67.45%)、少量提示下的GPT-4(F1分数57.2%)和少量提示下的ChatGPT GPT-3.5(F1分数46.9%)。
消融实验逐步移除不同模块以比较性能变化。实验表明,添加任何模块都能提高模型性能。仅使用BiLSTM-CRF模块提高了召回率和F1分数,表明该模块对于优化标签依赖关系和改善实体覆盖率很重要。仅使用DERM策略导致了更大的性能提升,其F1分数接近完整模型,表明DERM增强了语义建模和上下文理解能力。最终,完整模型在所有三个指标上表现最佳,表明M1和M2模块的整合具有互补优势。
在RLC-EMRs数据集上的实体识别结果显示了知识融合前后的实体数量统计。融合后,某些实体类别,如检查、疾病和症状,数量大幅增加。例如,疾病实体从449个增加到9,037个,症状实体从136个扩展到6,789个。此外,融合后出现了新的实体类型,如食物(4,870个)、药物(3,828个)和科室(54个)。关系分布显示,“推荐药物”和“具有症状”是最频繁的关系。
不同模型在识别EMRs中七类实体(检查、疾病、症状、既往史、手术记录、治疗方案、体格检查)上的性能比较表明,提出的DERM-RoBERTa-wwm-large-BiLSTM-CRF模型(F1分数:93.96%)相比BERT-large-BiLSTM-CRF基线模型(F1分数:90.33%)有显著提升。该模型也显著优于Word2vec-BiLSTM-CRF模型(F1分数:68.40%),展示了上下文化词嵌入相对于静态嵌入的优越性。与RoBERTa-wwm-large-BiLSTM-CRF模型(F1分数:93.84%)和DERM-BERT-large-BiLSTM-CRF模型(F1分数:93.96%)相比,该模型也显示出稳定的提升。相比之下,GPT-4模型(F1分数:87.58%)和ChatGLM-6B模型(F1分数:80.98%)表现出较大的性能差距,凸显了领域特定预训练和任务特定架构设计在医学NER应用中的优势。
对七类重要实体的F1分数、精确率和召回率的进一步分析显示,手术实体获得了最高的F1分数(100%),而症状实体的F1分数最低(86.06%),这表明了模型在小样本数据集上的泛化能力。
知识融合结果通过TF-IDF向量相似度热图展示,揭示了不同肝癌相关术语之间的语义重叠。例如,EMRs中的“原发性肝细胞癌”与XYWY.com语料库中的“原发性肝癌”表现出很高的余弦相似度得分(0.75),表明它们具有实质的语义等价性,因此被合并到KG中以保持一致性并减少冗余。知识融合前后的KG可视化对比表明,融合显著丰富了患者相关的实体和关系。
知识图谱构建结果评估显示,整体三元组准确性为93.5%,表明构建的KG是可靠的。对不同关系类型的详细评估显示出一致的高准确性,“具有症状”关系准确性最高(94.3%),其他关键关系如“伴随”(93.5%)、“推荐药物”(93.2%)和“推荐饮食”(92.3%)也非常可靠。最终构建的综合性肝癌KG包含11类实体,共计46,365个实体和296,655个三元组。KG可视化展示了以患者ID为中心的关联网络,包括检查、症状、疾病、既往史、手术记录、治疗方案和体格检查等代理节点,以及这些节点关联的具体疾病、症状和治疗节点。
作为KG的应用示例,并发症检索允许使用关键词或逻辑关系搜索和查询并发症。利用肝癌KG,可以以三元组的形式高效地将患者与疾病、疾病与并发症关联起来。通过Neo4j的自定义Cypher查询,可以快速方便地识别伴随并发症的疾病。
讨论
本研究证明了从多样化的中文真实世界数据源构建领域特异性肝癌KG的可行性和有效性。通过整合EMRs、标准化医学术语和可靠的在线医疗资源,提出的DERM-RoBERTa-wwm-large-BiLSTM-CRF模型在公开和私有数据集上的NER任务中均优于强基线模型。实体识别准确性的提高提升了KG的整体质量,为可靠的基于图的临床应用提供了支持。
本研究建立了一个强大的方法论基础,并为未来的增强奠定了基石。使用来自单一医疗中心和网站的临床知识库提供了一个高质量、内部一致的数据集,使得能够严格验证数据提取和KG构建流程,同时展示了其在捕捉详细肝癌见解方面的有效性。然而,作为真实世界临床数据,来自单一机构的304名肝癌患者样本可能引入固有的偏差。此外,在更广泛的真实世界部署中,跨数据源的冲突或不一致信息是不可避免的。虽然当前的单机构数据集在很大程度上最小化了这个问题,但未来的扩展需要明确的策略来确保可靠性。
基于当前扎实的概念验证,下一步逻辑步骤旨在直接应对上述挑战。为了增强普适性并减轻偏差,将纳入来自多个不同合作机构的EMRs。为了处理数据冲突,将实施明确的策略,如源可靠性加权和专家参与裁决。这种在扩展数据多样性的同时确保其可靠性的双重方法,对于创建全面且真正可信的肝癌多层视图至关重要,特别是在整合复杂的多模态数据(如基因组信息)时。
类似地,当前利用TF-IDF的知识融合过程被证明对于快速可靠的词汇实体规范化非常有效。为了进一步提升图谱的语义智能,计划用基于大语言模型的上下文嵌入替代TF-IDF,以实现更细致的实体链接和知识集成。与传统的相似性度量相比,这些模型在理解医学实体的复杂语义和上下文方面表现出卓越的能力。
认识到临床知识图谱的长期价值取决于其演进能力,还设计了一个全面的策略,以将KG从静态快照转变为动态的临床资产。基于提出的增量更新框架(该框架持续处理新的EMRs、临床指南和新兴文献),将纳入一个人工参与的验证工作流。这确保了随着图谱的扩展,其临床准确性和可信度通过专家评审得以维持。这种前瞻性的架构,辅以图数据库的技术可扩展性,对于在像肿瘤学这样快速发展的领域中保持持续的临床相关性至关重要。
最终,这项工作的目标是创建一个动态的知识资产,能够为先进的临床决策支持系统提供动力。一旦通过多模态数据和更深层次的推理能力得到增强,KG可以作为复杂预测模型的骨干。例如,它可以提供应用图神经网络预测患者特异性结果(如通过基于扩散的图注意力网络预测药物反应)所需的结构化知识。这将弥合基础知识表示与可操作的个性化医疗之间的差距。
结论
本研究的主要贡献是创建了一个从中文EMRs中提取KG的工作流程,旨在支持中医KG在疾病诊断和治疗中的开发和应用。基于原发性肝癌治疗指南和专家咨询,开发了KG的概念层。使用DERM-RoBERTa-wwm-large-BiLSTM-CRF模型从EMRs中提取实体,包括患者、检查、症状和治疗等。该模型在公开的CMeEE-v2数据集上表现出色,F1分数为68.84%,优于现有的基线模型。当应用于RLC-EMRs时,所提出的方法相比基线模型,F1分数提高了4.3%,精确率提高了5.8%,召回率提高了3.0%。接下来,使用CCMT-2019对实体进行标准化,并与XYWY.com结合进行知识融合。最终得到的三元组随后存储在Neo4j数据库中。
利用这种概念层设计,构建了一个能够实现肝癌智能诊断和治疗推荐的KG。通过对概念层设计、数据层构建和应用层功能的评估,验证了其合理性、有效性和实用性。本研究为高效设计和构建适用于其他疾病诊断和治疗的KG提供了一个框架。
展望未来,该方法可以推广到其他复杂疾病。未来的工作将侧重于用多中心数据丰富KG以获得更好的代表性,并整合多模态信息以获得更深入的见解。通过开发自动更新机制并与先进的人工智能技术集成,该框架可以演变成一个动态的、真正具有支持性的临床知识资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号