综述：基于双向LSTM和多元数据嵌入的传统中医文本分割模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Coal Geology》：Traditional Chinese medicine text segmentation model with multi-metadata embedding based on Bidirectional LSTM

【字体：大中小】 时间：2025年10月31日 来源：International Journal of Coal Geology 5.7

编辑推荐：

　　针对传统医学（TCM）文本分词存在的术语模糊、古籍结构复杂及数据稀缺问题，提出MBMC模型，融合Word2Vec字符级嵌入、CNN字形特征提取、BiLSTM-MHA双向注意力机制及CRF解码层。在TCM2023等数据集上，F1分数达95.64%，显著优于BERT等预训练模型，且参数量减少80%，推理速度提升3倍，验证了多维度特征融合对医学文本分词的有效性。

　　近年来，自然语言处理（NLP）技术在传统中医（TCM）领域的应用日益受到关注。中文分词（CWS）是NLP中的基础任务之一，旨在基于上下文准确地将连续的汉字序列分割成有意义的词语。然而，中医文献常常存在信息不完整、歧义和结构复杂等问题，导致分词效果不佳。同时，可用的中医分词数据集有限，且现有模型难以捕捉中医文本的独特特征，进一步加剧了这一问题。为了解决这些挑战，本文提出了一种基于双向长短期记忆网络（BiLSTM）与多头自注意力机制（MHA）相结合的多元元数据嵌入中医文本分词模型（MBMC）。该模型首先构建了一个专门用于CWS任务的中医文本语料库（TCM2023），填补了现有文献中的空白。该语料库未在以往研究中出现，为模型的评估和可视化提供了可靠的数据基础。MBMC模型利用Word2Vec和卷积神经网络（CNN）提取汉字及结构信息的特征，并将其作为神经网络的输入，以提升上下文特征的提取能力。此外，模型还引入了条件随机场（CRF）来优化分词结果。在TCM2023数据集上，MBMC模型实现了95.64%的F1分数，为后续中医领域的NLP任务提供了可靠的基础。在MSRA和PKU数据集上，MBMC模型分别达到了98.93%和97.50%的F1分数，优于BERT和Glyce-BERT等预训练模型，同时计算时间和内存消耗更低。

中医文本的分词任务相较于通用文本更为复杂。中医文本通常包含大量专业术语、古文表达以及结构上的不确定性，这些都对分词模型提出了更高的要求。传统的中文分词方法，如基于词典的方法或统计方法，虽然在通用文本上表现良好，但在处理中医文本时，往往无法满足其复杂性和专业性的需求。近年来，随着深度学习技术的发展，BiLSTM、CNN和CRF等模型被广泛应用于中文分词任务中。然而，这些方法在处理中医文本时仍面临挑战，例如如何捕捉中医文本中的长距离依赖关系、如何处理复杂的古文表达以及如何应对数据量不足的问题。因此，本文提出的MBMC模型结合了多种方法，以提高中医文本分词的准确性。

在中医文本分词任务中，一个关键问题是如何构建高质量的标注数据集。由于中医文本的特殊性，传统方法在处理这些文本时往往需要大量的标注数据，这在实际操作中是难以实现的。本文通过构建TCM2023数据集，解决了这一问题。该数据集来源于两方面的资料：一是通过数字化印刷文献，二是通过网络爬取的古典文献和临床案例。在构建数据集的过程中，采用了Python编程技术将印刷文本转换为电子格式，显著减少了人工输入的劳动强度。随后，通过人工校对和专家知识优化了数据集的标注质量，确保了模型训练的有效性。此外，为了进一步验证数据集的质量，进行了随机抽样检查，结果显示TCM2023数据集的标注准确率达到97.6%。

MBMC模型的设计基于中医文本的特殊性，引入了多头自注意力机制（MHA）来增强模型对长距离依赖关系的捕捉能力。传统的BiLSTM模型虽然能够处理序列依赖关系，但在面对复杂的中医文本时，其捕捉全局语境的能力有限。而MHA机制则通过多个注意力头，能够并行地处理不同语境下的信息，从而提升模型对长距离依赖关系的建模能力。此外，模型还引入了基于卷积神经网络（CNN）的部首嵌入方法，以捕捉中医文本中的结构特征。这种方法能够有效提升模型对中医术语和古文表达的理解能力，从而提高分词的准确性。

在实验部分，本文使用了TCM2023、MSRA和PKU三个数据集进行模型评估。TCM2023数据集专门用于中医文本分词，MSRA和PKU则是通用文本分词的公开数据集。通过比较不同模型在这些数据集上的表现，验证了MBMC模型的有效性。实验结果显示，MBMC模型在TCM2023数据集上取得了95.64%的F1分数，在MSRA和PKU数据集上分别达到了98.93%和97.50%的F1分数，优于多个基线模型。这表明MBMC模型不仅适用于中医文本，也能够在通用文本上取得良好的效果。

此外，本文还进行了消融实验，以分析各模块对模型性能的影响。实验结果表明，单独使用CRF或BiLSTM模型在中医文本分词任务中表现不佳，而引入Word2Vec、CNN部首嵌入和MHA机制后，模型的性能显著提升。特别是，当同时引入Word2Vec和CNN部首嵌入时，模型在中医文本上的F1分数提高了1.70%，在MSRA和PKU数据集上的F1分数分别提高了0.48%和0.76%。这表明，Word2Vec和CNN部首嵌入在中医文本分词任务中具有重要的贡献。而MHA机制则在捕捉长距离依赖关系方面表现出色，使得模型在处理复杂文本时更具优势。

MBMC模型的另一个显著优势是其轻量化设计。与传统的预训练模型（如BERT和Glyce-BERT）相比，MBMC模型在计算时间和内存消耗方面具有明显优势。例如，在MSRA数据集上，MBMC模型的训练时间和内存消耗分别仅为BERT-base和Glyce-BERT的三分之一左右，而其F1分数却显著高于这些模型。这表明，MBMC模型在保持高准确率的同时，具有较低的计算成本，适合在资源受限的环境中使用。此外，模型在训练过程中表现出良好的收敛性，训练损失在早期快速下降，随后趋于稳定，最终接近零。这表明模型能够有效地从训练数据中学习，并在测试数据上保持高精度。

从实验结果来看，MBMC模型在多个方面表现出色。首先，它能够有效捕捉中医文本中的结构特征，如部首和字符组合，从而提升模型对中医术语的理解能力。其次，模型结合了BiLSTM和MHA，使得其在处理复杂语境和长距离依赖关系时更具优势。最后，模型引入了CRF层，使得其在分词过程中能够更好地利用相邻词之间的关系，提高分词结果的连贯性和准确性。因此，MBMC模型不仅在中医文本分词任务中表现出色，也能够适应通用文本的分词需求，具有较强的泛化能力。

在模型的未来发展方向中，本文指出了一些需要改进的地方。首先，TCM数据集的规模仍然有限，这可能会影响模型的泛化能力。因此，未来的工作应考虑扩展数据集，并引入更多元数据来增强模型的学习能力。其次，当前的部首嵌入方法可能无法全面捕捉中医文本中所有结构信息，因此需要进一步优化。此外，模型在处理单字词和多字词时仍存在一定困难，未来可以考虑引入更复杂的注意力机制或图神经网络（GNN）来提升模型的性能。最后，MBMC模型虽然在分词任务上表现出色，但在中医实体识别和知识图谱构建等后续任务中，仍需进一步优化，以确保其在实际应用中的有效性。

总的来说，MBMC模型通过整合中医文本的字符和结构信息，结合BiLSTM、MHA和CRF等技术，实现了对中医文本的高效和准确分词。该模型不仅适用于中医领域，也能够在通用文本分词任务中取得良好效果。其轻量化设计和高准确率使其成为中医文本处理的理想选择。未来，随着数据集的扩展和模型的优化，MBMC有望在中医NLP任务中发挥更大的作用，为中医知识的提取和应用提供更坚实的基础。

联系信箱：

粤ICP备09063491号

热点排行