MixL-CNN:一种轻量级的多尺度模型,用于跨领域特征提取

《Pattern Recognition Letters》:MixL-CNN: Lightweight multi-scale model for cross-domain aspect term extraction

【字体: 时间:2025年11月08日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  跨领域方面术语提取(CD-ATE)中,大预训练模型(如BERT)计算成本高。本文提出轻量级CNN MixL-CNN,结合混合多尺度卷积捕获不同粒度上下文信息,以及动态注意力机制自适应领域特征。实验表明,MixL-CNN在三个基准数据集(餐厅、笔记本、设备)六种跨域场景下平均F1达54.25%,较基线提升0.32,参数量仅0.87MB,推理速度比现有SOTA模型快3倍。

  
林海刘 | 李卫江
昆明理工大学人工智能重点实验室,中国昆明 650500

摘要

跨领域方面术语提取(CD-ATE)对于细粒度分析至关重要,但在资源受限的情况下,部署像BERT这样的大型预训练模型通常是不可行的,因为计算成本较高。为了解决这一挑战,我们提出了MixL-CNN,这是一种专为高效且有效的CD-ATE设计的轻量级卷积神经网络。MixL-CNN整合了两项核心创新:(1)混合多尺度卷积(MMSC),它可以捕捉不同粒度下的多种上下文依赖关系;(2)一种基于注意力的动态特征适应机制,通过选择性强调相关特征通道来增强领域感知的特征提取能力。在六个领域转换的标准餐厅、笔记本电脑和设备基准测试中进行的广泛实验表明,MixL-CNN取得了54.25的平均F1分数(比之前的最佳模型WoChMutiE提高了0.32)。消融研究证实了多尺度架构和动态适应组件的关键互补作用。重要的是,MixL-CNN表现出卓越的效率,仅使用0.87MB的参数(比BERT模型少125倍以上),并且推理速度显著加快,比特定的非BERT模型WoChMutiE快3倍。这种性能与效率之间的显著平衡使MixL-CNN成为在现实世界中资源有限的环境下部署高性能CD-ATE的稳健且实用的解决方案。

引言

在线用户生成内容的爆炸性增长,特别是评论和社交媒体评论,为理解公众意见提供了巨大的机会。情感分析旨在揭示这些见解,而方面术语提取(ATE)是该领域的一项关键技术。ATE能够识别表达意见的具体实体或属性(方面术语)。例如,在“相机质量很好,但电池续航令人失望”这句话中,ATE能够准确识别出“相机质量”和“电池续航”(见图1),从而实现比句子级分类更具信息量的细粒度情感评估。这对于寻求产品和服务详细反馈的企业和组织来说至关重要。
跨领域ATE的研究分为两种范式。“重型”方法使用大型预训练语言模型(PLMs)[1]、[2],虽然性能优异,但计算成本高昂,阻碍了实际应用。相反,“轻型”模型使用更简单的编码器[3]、[4],虽然效率较高,但在面对领域转换时表现不佳,因为它们往往只能学习到表面的、特定于领域的特征。这就留下了一个关键的研究空白:如何创建一个既轻量又具有强大跨领域适应性的模型,同时不牺牲效率。
我们提出了MixL-CNN来填补这一空白,这是一种专为稳健的跨领域ATE设计的轻量级CNN。它整合了两项关键创新:(1)混合多尺度卷积:我们的主干网络使用不同核大小的并行卷积来高效捕捉跨领域结构上一致的多种粒度局部模式(例如“电池”、“相机质量”),从而创建出丰富而紧凑的特征表示。(2)动态特征适应:我们的核心跨领域迁移创新是一个基于注意力的轻量级模块,它可以重新校准特征通道。该模块能够动态强调与领域相关的特征并抑制特定于领域的噪声,无需复杂的训练或领域标签即可实现有效适应。这些组件的协同作用至关重要:卷积生成多样化特征,而适应模块则充当轻量级的门控器,根据目标领域进行调整。这使得MixL-CNN成为在资源有限的现实环境中部署高性能CD-ATE的强大实用解决方案。
本文的其余部分组织如下:第2节讨论相关工作。第3节详细介绍所提出的MixL-CNN模型。第4节介绍实验设置和结果。最后,第5节总结本文并提出未来发展方向。

部分片段

基于方面的 sentiment 分析

基于方面的 sentiment 分析(ABSA)在理解细粒度公众情感方面发挥着重要作用[5],它关注的是方面级别的意见,而不是整体情感[6]。最近的研究通过各种技术推进了ABSA的发展:He等人[7]将BERT与知识图谱结合通过多任务学习;Yu等人[8]引入了DA2LM用于跨领域数据增强;Jiang等人[9]设计了DCASAM来增强上下文表示。Jin等人[10]提出了WordTransABSA来完全

方法论

本节详细介绍了所提出的用于跨领域方面术语提取的MixL-CNN模型。首先我们定义了任务(第3.1节)。然后,我们描述了输入表示层,包括一种新颖的语义原型集成机制(第3.2节)。接下来,我们详细介绍了核心的MixL-CNN编码器,它包含混合多尺度卷积和动态特征适应组件(第3.3节)。最后,我们介绍了结合对抗性领域适应的分类器层(第

数据集

我们在三个英语数据集上评估了所提出的MixL-CNN模型:SemEval 2014 [32]中的餐厅(R)和笔记本电脑(L)以及相关工作,以及Hu等人[12]中的设备(D)。详细的数据集统计信息见表1。进行了六次跨领域方面术语提取实验,涵盖了三个领域之间的所有转换方向(R→L、L→R等)。该模型使用PyTorch 2.3.1实现,并在NVIDIA RTX 3070 GPU上训练了100个周期。我们采用了Adam

结论

在这项工作中,我们提出了MixL-CNN,这是一种用于跨领域方面术语提取(ATE)的新型卷积架构。MixL-CNN将多尺度卷积层与基于注意力的动态特征适应机制相结合。这种设计有效地捕捉了多样化的语义特征,并增强了跨领域的泛化能力。在基准数据集上的广泛实验表明,MixL-CNN优于现有的最佳方法,取得了显著的平均F1分数

CRediT作者贡献声明

林海刘:撰写——原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据整理、概念化。李卫江:撰写——审阅与编辑、资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金42374087)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号