综述:基于双向LSTM和多元数据嵌入的传统中医文本分割模型
《International Journal of Coal Geology》:Traditional Chinese medicine text segmentation model with multi-metadata embedding based on Bidirectional LSTM
【字体:
大
中
小
】
时间:2025年10月31日
来源:International Journal of Coal Geology 5.7
编辑推荐:
针对传统医学(TCM)文本分词存在的术语模糊、古籍结构复杂及数据稀缺问题,提出MBMC模型,融合Word2Vec字符级嵌入、CNN字形特征提取、BiLSTM-MHA双向注意力机制及CRF解码层。在TCM2023等数据集上,F1分数达95.64%,显著优于BERT等预训练模型,且参数量减少80%,推理速度提升3倍,验证了多维度特征融合对医学文本分词的有效性。
近年来,自然语言处理(NLP)技术在传统中医(TCM)领域的应用日益受到关注。中文分词(CWS)是NLP中的基础任务之一,旨在基于上下文准确地将连续的汉字序列分割成有意义的词语。然而,中医文献常常存在信息不完整、歧义和结构复杂等问题,导致分词效果不佳。同时,可用的中医分词数据集有限,且现有模型难以捕捉中医文本的独特特征,进一步加剧了这一问题。为了解决这些挑战,本文提出了一种基于双向长短期记忆网络(BiLSTM)与多头自注意力机制(MHA)相结合的多元元数据嵌入中医文本分词模型(MBMC)。该模型首先构建了一个专门用于CWS任务的中医文本语料库(TCM2023),填补了现有文献中的空白。该语料库未在以往研究中出现,为模型的评估和可视化提供了可靠的数据基础。MBMC模型利用Word2Vec和卷积神经网络(CNN)提取汉字及结构信息的特征,并将其作为神经网络的输入,以提升上下文特征的提取能力。此外,模型还引入了条件随机场(CRF)来优化分词结果。在TCM2023数据集上,MBMC模型实现了95.64%的F1分数,为后续中医领域的NLP任务提供了可靠的基础。在MSRA和PKU数据集上,MBMC模型分别达到了98.93%和97.50%的F1分数,优于BERT和Glyce-BERT等预训练模型,同时计算时间和内存消耗更低。
中医文本的分词任务相较于通用文本更为复杂。中医文本通常包含大量专业术语、古文表达以及结构上的不确定性,这些都对分词模型提出了更高的要求。传统的中文分词方法,如基于词典的方法或统计方法,虽然在通用文本上表现良好,但在处理中医文本时,往往无法满足其复杂性和专业性的需求。近年来,随着深度学习技术的发展,BiLSTM、CNN和CRF等模型被广泛应用于中文分词任务中。然而,这些方法在处理中医文本时仍面临挑战,例如如何捕捉中医文本中的长距离依赖关系、如何处理复杂的古文表达以及如何应对数据量不足的问题。因此,本文提出的MBMC模型结合了多种方法,以提高中医文本分词的准确性。
在中医文本分词任务中,一个关键问题是如何构建高质量的标注数据集。由于中医文本的特殊性,传统方法在处理这些文本时往往需要大量的标注数据,这在实际操作中是难以实现的。本文通过构建TCM2023数据集,解决了这一问题。该数据集来源于两方面的资料:一是通过数字化印刷文献,二是通过网络爬取的古典文献和临床案例。在构建数据集的过程中,采用了Python编程技术将印刷文本转换为电子格式,显著减少了人工输入的劳动强度。随后,通过人工校对和专家知识优化了数据集的标注质量,确保了模型训练的有效性。此外,为了进一步验证数据集的质量,进行了随机抽样检查,结果显示TCM2023数据集的标注准确率达到97.6%。
MBMC模型的设计基于中医文本的特殊性,引入了多头自注意力机制(MHA)来增强模型对长距离依赖关系的捕捉能力。传统的BiLSTM模型虽然能够处理序列依赖关系,但在面对复杂的中医文本时,其捕捉全局语境的能力有限。而MHA机制则通过多个注意力头,能够并行地处理不同语境下的信息,从而提升模型对长距离依赖关系的建模能力。此外,模型还引入了基于卷积神经网络(CNN)的部首嵌入方法,以捕捉中医文本中的结构特征。这种方法能够有效提升模型对中医术语和古文表达的理解能力,从而提高分词的准确性。
在实验部分,本文使用了TCM2023、MSRA和PKU三个数据集进行模型评估。TCM2023数据集专门用于中医文本分词,MSRA和PKU则是通用文本分词的公开数据集。通过比较不同模型在这些数据集上的表现,验证了MBMC模型的有效性。实验结果显示,MBMC模型在TCM2023数据集上取得了95.64%的F1分数,在MSRA和PKU数据集上分别达到了98.93%和97.50%的F1分数,优于多个基线模型。这表明MBMC模型不仅适用于中医文本,也能够在通用文本上取得良好的效果。
此外,本文还进行了消融实验,以分析各模块对模型性能的影响。实验结果表明,单独使用CRF或BiLSTM模型在中医文本分词任务中表现不佳,而引入Word2Vec、CNN部首嵌入和MHA机制后,模型的性能显著提升。特别是,当同时引入Word2Vec和CNN部首嵌入时,模型在中医文本上的F1分数提高了1.70%,在MSRA和PKU数据集上的F1分数分别提高了0.48%和0.76%。这表明,Word2Vec和CNN部首嵌入在中医文本分词任务中具有重要的贡献。而MHA机制则在捕捉长距离依赖关系方面表现出色,使得模型在处理复杂文本时更具优势。
MBMC模型的另一个显著优势是其轻量化设计。与传统的预训练模型(如BERT和Glyce-BERT)相比,MBMC模型在计算时间和内存消耗方面具有明显优势。例如,在MSRA数据集上,MBMC模型的训练时间和内存消耗分别仅为BERT-base和Glyce-BERT的三分之一左右,而其F1分数却显著高于这些模型。这表明,MBMC模型在保持高准确率的同时,具有较低的计算成本,适合在资源受限的环境中使用。此外,模型在训练过程中表现出良好的收敛性,训练损失在早期快速下降,随后趋于稳定,最终接近零。这表明模型能够有效地从训练数据中学习,并在测试数据上保持高精度。
从实验结果来看,MBMC模型在多个方面表现出色。首先,它能够有效捕捉中医文本中的结构特征,如部首和字符组合,从而提升模型对中医术语的理解能力。其次,模型结合了BiLSTM和MHA,使得其在处理复杂语境和长距离依赖关系时更具优势。最后,模型引入了CRF层,使得其在分词过程中能够更好地利用相邻词之间的关系,提高分词结果的连贯性和准确性。因此,MBMC模型不仅在中医文本分词任务中表现出色,也能够适应通用文本的分词需求,具有较强的泛化能力。
在模型的未来发展方向中,本文指出了一些需要改进的地方。首先,TCM数据集的规模仍然有限,这可能会影响模型的泛化能力。因此,未来的工作应考虑扩展数据集,并引入更多元数据来增强模型的学习能力。其次,当前的部首嵌入方法可能无法全面捕捉中医文本中所有结构信息,因此需要进一步优化。此外,模型在处理单字词和多字词时仍存在一定困难,未来可以考虑引入更复杂的注意力机制或图神经网络(GNN)来提升模型的性能。最后,MBMC模型虽然在分词任务上表现出色,但在中医实体识别和知识图谱构建等后续任务中,仍需进一步优化,以确保其在实际应用中的有效性。
总的来说,MBMC模型通过整合中医文本的字符和结构信息,结合BiLSTM、MHA和CRF等技术,实现了对中医文本的高效和准确分词。该模型不仅适用于中医领域,也能够在通用文本分词任务中取得良好效果。其轻量化设计和高准确率使其成为中医文本处理的理想选择。未来,随着数据集的扩展和模型的优化,MBMC有望在中医NLP任务中发挥更大的作用,为中医知识的提取和应用提供更坚实的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号