旅游领域多语言社交媒体内容分析的最优策略研究:基于新型数据集与少样本学习技术

【字体: 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  本研究针对旅游领域多语言社交媒体内容分析中标注数据稀缺的挑战,创新性地构建了首个公开可用的多语言(法/英/西)旅游推文数据集,系统比较了少样本学习(Few-shot)、微调(Fine-tuning)和规则匹配(word-matching)等方法在情感分析(Sentiment Analysis)、命名实体识别(NER)和细粒度主题概念抽取(Fine-grained Thematic Concept Extraction)三大任务上的表现。研究发现XLM-T Sentiment模型仅需5个标注样本即可实现0.919准确率,EntLM方法在315类细粒度主题识别中F1值达0.760,为领域特定NLP应用提供了高效解决方案。

  

在数字化浪潮席卷全球的今天,社交媒体已成为旅游体验分享的重要平台。每天,数以百万计的游客通过Twitter等平台实时发布旅行见闻,这些用户生成内容(UGC)蕴含着宝贵的商业情报。然而,面对多语言、非结构化且充满语法错误的社交文本,如何将其转化为结构化知识始终是自然语言处理(NLP)领域的重大挑战。传统方法要么依赖大量人工标注数据来训练深度学习模型,要么需要开发复杂耗时的规则系统,这两种路径都难以满足旅游业快速变化的需求。

为破解这一难题,来自法国巴斯克海岸大学等机构的研究团队在《Knowledge-Based Systems》发表了开创性研究。他们首次构建了包含法语、英语和西班牙语的旅游推文多语言数据集,该数据集不仅标注了情感极性,还创新性地引入了基于世界旅游组织(UNWTO)旅游休闲活动词表的细粒度主题概念标注体系,涵盖315个精细类别。研究人员系统比较了掩码语言模型(MLM)、大语言模型(LLM)在不同训练策略下的表现,探索了在标注数据稀缺条件下实现最优性能的解决方案。

研究采用了三项核心技术方法:首先利用Twitter学术API采集2019年夏季法国巴斯克海岸地区的27,379条推文,经空间-时间-主题三维过滤后精选2,961条构成实验数据集;其次开发半自动标注流程,通过XLM-T Sentiment等预训练模型辅助人工标注,确保Cohen's κ系数达0.67-0.93;最后系统评估了Pattern-Exploiting Training(PET)、EntLM等少样本学习技术,以及XLM-RoBERTa、Mistral 7B等模型在微调与提示工程中的表现。

在情感分析任务中,研究获得突破性发现:预训练模型XLM-T Sentiment仅需5个标注样本就能达到0.919的惊人准确率,10样本时进一步提升至0.939。相比之下,传统微调方法需要40-50个样本才能达到相近水平。这一结果颠覆了"领域适应必须依赖大量标注数据"的传统认知,证明跨领域预训练能显著降低数据需求。研究还发现,对于没有预训练模型的新任务,SetFit框架在40样本条件下表现最优,而开源模型Mistral 7B在少样本场景下也展现出0.750的稳定性能。

命名实体识别方面,研究揭示了生成式LLM的惊人潜力。GPT-3.5在零样本设置下F1值就达到0.694,30样本时超越规则基线。特别值得注意的是,专门设计的GoLLIE模型在使用全量数据时F1值达0.832,成为该任务的新标杆。研究还发现,对于单类别NER任务,基于百分比采样(20%数据量)的EntLM方法效果优于传统k-shot采样,这为实际应用中的数据采样策略提供了重要参考。

最具突破性的发现在于细粒度主题概念抽取任务。面对315个旅游主题类的识别挑战,传统微调方法完全失效,而EntLM仅用5样本就获得0.760的F1值,接近规则方法的0.836。分析表明,EntLM成功的关键在于其"标签词-概念类"映射机制,能有效利用少量但高代表性的标签词。研究还绘制了主题概念与情感的关联图谱,如"交通运输"类普遍呈现负面情绪,而"文化遗产"类则以积极情绪为主,为旅游管理提供了量化依据。

在讨论部分,作者深入分析了错误案例。情感分析的误判多源于模型对表层词汇的过度依赖,如将国庆烟花描述误判为负面;NER错误则常由社交媒体特有的非规范表达引起,如将工会标签#sniteat-unsa误识为地点。研究特别指出,合并新闻领域NER语料(如ESTER、AnCora)并不能提升社交媒体的识别效果,强调领域适配的重要性。

这项研究的意义在于:首次系统论证了少样本学习在旅游NLP中的可行性,为资源稀缺场景提供了实用解决方案;创建的首个多语言旅游社交媒体标注数据集填补了领域空白;开发的EntLM等方法在细粒度分类中表现卓越,为复杂序列标注任务开辟了新思路。团队正基于这些成果开发多维可视化看板,将NLP输出转化为旅游管理的决策支持工具。未来工作可探索更多语言覆盖、跨任务联合学习等方向,进一步提升领域适应的效率和鲁棒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号