基于依存句法增强的大语言模型意见表达识别研究

【字体: 时间:2025年07月26日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  本研究针对大语言模型(LLM)在意见表达识别(OEI)任务中难以利用句法结构信息的问题,创新性地将依存句法分析与提示学习框架相结合。研究人员通过BERT-CRF模型筛选关键依存关系并线性化为文本,成功提升LLM在英/中/葡三语基准数据集上的性能,为结构化信息融入生成式范式提供了新思路。

  

在情感分析领域,识别文本中的意见表达及其极性(Opinion Expression Identification, OEI)一直是细粒度意见挖掘的核心任务。随着大语言模型(LLM)的崛起,虽然生成式方法在多项自然语言处理(NLP)任务中展现出强大能力,但如何让这些"黑箱"模型有效利用句法结构信息成为新的挑战。传统编码器-解码器架构已证实依存句法对OEI任务至关重要,但当这些结构化特征遇到LLM的提示学习(prompt learning)范式时,却面临着信息形式不兼容、冗余干扰等难题。

中国的研究团队通过创新性的两阶段策略破解了这一困局。该研究首先构建了标准提示学习框架,随后引入依存句法解析器获取文本结构信息。针对原始依存树直接线性化会导致信息过载的问题,团队巧妙采用BERT-CRF模型作为"语法筛子",通过权重评估筛选出对情感表达最关键的依存关系。这些精炼后的语法特征被转化为自然语言描述,以检索增强生成(Retrieval Augmented Generation, RAG)方式融入提示文本。发表于《Pattern Recognition Letters》的研究成果显示,该方法在MPQA、COTE-BD等跨语言数据集上均取得显著提升,其中中文任务F1值提升达3.2个百分点。

关键技术包括:1)基于模板的依存关系线性化技术,将树状结构转换为LLM可理解的文本序列;2)BERT-CRF双模块依赖关系检索器,实现语法特征重要性排序;3)多语言验证框架,覆盖英语、汉语和葡萄牙语三类差异显著的语系。

【方法设计】
研究团队设计了两阶段处理流程:基础阶段采用标准提示学习框架,由LLM直接处理原始文本;增强阶段则注入筛选后的依存特征。实验表明,未经筛选的完整依存描述会使模型性能下降1.8%,印证了噪声过滤的必要性。

【跨语言验证】
在MPQA(英)、COTE-BD(中)和MultiBook(葡)数据集上的测试显示,语法增强策略使Llama-2模型的平均召回率提升4.5%。特别在中文长文本场景下,依存关系筛选使准确率波动降低37%。

【错误分析】
案例研究表明,模型对"否定-情感词"等复杂语法模式的识别准确率提升21%,但在介词短语修饰情感词等边缘场景仍存在局限。

这项研究首次系统论证了结构化语法特征与生成式LLM的融合路径,其创新点在于:1)建立依存关系线性化标准,解决结构-文本模态鸿沟;2)验证语法检索器对生成质量的关键作用。该成果不仅推动细粒度情感分析发展,更为其他需要结合结构特征的NLP任务(如事件抽取、语义角色标注)提供了可复用的技术框架。开源代码已发布在GitHub平台,支持研究社区进一步探索语法感知的LLM应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号