编辑推荐:
古典文学情感分析因语言演变等存挑战。研究人员针对传统方法局限,开展基于集成学习(Bagging、Boosting)与图神经网络(GNN)的系统研究。结果显示 GNN 分类准确率 91.5%,集成后达 93.7%,为古典文学情感分析提供新方案。
在数字时代,古典文学的情感挖掘面临诸多困境。其独特的语言风格、历史文化背景,加之隐喻、典故等修辞手法的运用,使得传统情感分析方法难以精准捕捉文本中的情感色彩。例如,基于词袋模型的方法仅依赖词频判断情感,忽略语义关联,导致分析富含隐喻的诗句时易出错;而传统神经网络在处理大规模数据时,常因内存限制和计算效率低下,难以满足实际需求。此外,现有系统对古典文学特殊语法结构和文化内涵的适配性不足,情感分类准确率普遍在 75%-85%,无法深入解读作品的情感内核。因此,突破传统方法的局限性,构建高效精准的古典文学情感分析系统成为学界亟待解决的问题。
为应对上述挑战,研究人员开展了基于集成学习与图神经网络(GNN)的古典文学情感分析系统研究。该研究构建了覆盖多朝代、多体裁的大规模古典文学语料库,通过集成学习策略(Bagging 和 Boosting)融合多个 GNN 模型,并利用图结构捕捉文本中词汇节点与语义边的深层关联。实验结果表明,该系统在情感分类准确率上达到 93.7%,显著优于传统方法,为古典文学的数字化研究与文化传承提供了有力支撑。该研究成果发表在《International Journal of Cognitive Computing in Engineering》。
研究中采用的关键技术方法包括:
- 集成学习:结合 Bagging 和 Boosting 策略,优化多个 GNN 模型性能,形成更鲁棒的决策集合,降低误报率。
- 图神经网络(GNN):将文本转化为包含词汇节点和语义边的图结构,通过图卷积层(GCN)等操作提取深层语义特征,捕捉文本的长距离依赖和复杂关系。
- 语料库构建与预处理:收集《全唐诗》《全宋词》等权威文献,进行文本清洗、繁简转换、分词及情感标注,构建包含正、负、中性标签及文化背景信息的数据集。
研究结果
情感特征提取模块
通过嵌入处理将词语转化为向量,并结合词性嵌入与句法依赖关系构建权重矩阵,利用注意力机制和图卷积层处理,实现对古典文学情感特征的多维度捕捉。例如,对《红楼梦》中 “黛玉葬花” 片段的分析,系统能通过语义网络准确识别 “悲伤自怜” 的情感标签。
模型构建与性能优化
集成学习与 GNN 的融合模型在处理大规模数据时表现出显著优势。与传统词袋模型相比,其准确率从 70%-80% 提升至 90% 以上,处理 10,000 级文本的时间从数小时缩短至数十分钟,实时分析中的误报率从 40% 降至 10% 以下。实验表明,当图卷积层数为 2、编码维度为 50 时,模型在多个数据集上的性能最佳,平衡了复杂度与信息利用率。
多模型对比与消融实验
对比 SVM、TextCNN 等模型,集成学习 - 图卷积网络(EL-GCN)在准确率、召回率和 F1 值上均表现更优。消融实验显示,注意力机制与 DPCNN 模块对短文本情感分类至关重要,而仅使用 BERT 模型时特征提取能力有限,验证了各模块协同作用的必要性。
结论与讨论
该研究通过集成学习与图神经网络的深度融合,构建了高精度的古典文学情感分析系统,有效解决了传统方法在语义建模和大规模数据处理中的不足。系统不仅能识别简单情感类别,还可细分复杂情感子类别,结合文化背景信息提升分析的准确性。其创新点在于利用 GNN 的图结构建模能力捕捉文本深层语义关联,通过集成策略增强模型鲁棒性,为古典文学研究提供了跨学科的技术路径。
尽管系统在计算资源需求上较高,但通过模型压缩(如剪枝、量化)与分布式计算优化,未来有望在边缘计算和云计算场景中推广。该研究成果不仅推动了自然语言处理技术在人文领域的应用,也为传统文化的数字化保护与传播提供了新范式,具有重要的学术价值与实践意义。