基于集成学习与图神经网络的古典文学情感分析系统设计与实现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月27日 来源：International Journal of Cognitive Computing in Engineering CS13.8

编辑推荐：

　　古典文学情感分析因语言演变等存挑战。研究人员针对传统方法局限，开展基于集成学习（Bagging、Boosting）与图神经网络（GNN）的系统研究。结果显示 GNN 分类准确率 91.5%，集成后达 93.7%，为古典文学情感分析提供新方案。

在数字时代，古典文学的情感挖掘面临诸多困境。其独特的语言风格、历史文化背景，加之隐喻、典故等修辞手法的运用，使得传统情感分析方法难以精准捕捉文本中的情感色彩。例如，基于词袋模型的方法仅依赖词频判断情感，忽略语义关联，导致分析富含隐喻的诗句时易出错；而传统神经网络在处理大规模数据时，常因内存限制和计算效率低下，难以满足实际需求。此外，现有系统对古典文学特殊语法结构和文化内涵的适配性不足，情感分类准确率普遍在 75%-85%，无法深入解读作品的情感内核。因此，突破传统方法的局限性，构建高效精准的古典文学情感分析系统成为学界亟待解决的问题。

为应对上述挑战，研究人员开展了基于集成学习与图神经网络（GNN）的古典文学情感分析系统研究。该研究构建了覆盖多朝代、多体裁的大规模古典文学语料库，通过集成学习策略（Bagging 和 Boosting）融合多个 GNN 模型，并利用图结构捕捉文本中词汇节点与语义边的深层关联。实验结果表明，该系统在情感分类准确率上达到 93.7%，显著优于传统方法，为古典文学的数字化研究与文化传承提供了有力支撑。该研究成果发表在《International Journal of Cognitive Computing in Engineering》。

研究中采用的关键技术方法包括：

集成学习：结合 Bagging 和 Boosting 策略，优化多个 GNN 模型性能，形成更鲁棒的决策集合，降低误报率。
图神经网络（GNN）：将文本转化为包含词汇节点和语义边的图结构，通过图卷积层（GCN）等操作提取深层语义特征，捕捉文本的长距离依赖和复杂关系。
语料库构建与预处理：收集《全唐诗》《全宋词》等权威文献，进行文本清洗、繁简转换、分词及情感标注，构建包含正、负、中性标签及文化背景信息的数据集。

研究结果

情感特征提取模块
通过嵌入处理将词语转化为向量，并结合词性嵌入与句法依赖关系构建权重矩阵，利用注意力机制和图卷积层处理，实现对古典文学情感特征的多维度捕捉。例如，对《红楼梦》中 “黛玉葬花” 片段的分析，系统能通过语义网络准确识别 “悲伤自怜” 的情感标签。
模型构建与性能优化
集成学习与 GNN 的融合模型在处理大规模数据时表现出显著优势。与传统词袋模型相比，其准确率从 70%-80% 提升至 90% 以上，处理 10,000 级文本的时间从数小时缩短至数十分钟，实时分析中的误报率从 40% 降至 10% 以下。实验表明，当图卷积层数为 2、编码维度为 50 时，模型在多个数据集上的性能最佳，平衡了复杂度与信息利用率。
多模型对比与消融实验
对比 SVM、TextCNN 等模型，集成学习 - 图卷积网络（EL-GCN）在准确率、召回率和 F1 值上均表现更优。消融实验显示，注意力机制与 DPCNN 模块对短文本情感分类至关重要，而仅使用 BERT 模型时特征提取能力有限，验证了各模块协同作用的必要性。

结论与讨论

该研究通过集成学习与图神经网络的深度融合，构建了高精度的古典文学情感分析系统，有效解决了传统方法在语义建模和大规模数据处理中的不足。系统不仅能识别简单情感类别，还可细分复杂情感子类别，结合文化背景信息提升分析的准确性。其创新点在于利用 GNN 的图结构建模能力捕捉文本深层语义关联，通过集成策略增强模型鲁棒性，为古典文学研究提供了跨学科的技术路径。

尽管系统在计算资源需求上较高，但通过模型压缩（如剪枝、量化）与分布式计算优化，未来有望在边缘计算和云计算场景中推广。该研究成果不仅推动了自然语言处理技术在人文领域的应用，也为传统文化的数字化保护与传播提供了新范式，具有重要的学术价值与实践意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号