融合TwinSVM-HHO与情感特征的多语言垃圾评论检测模型研究

【字体: 时间:2025年05月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决多语言环境下垃圾评论检测面临的语义复杂性和数据不平衡问题,研究人员提出了一种结合Twin支持向量机(TwinSVM)与Harris Hawks优化算法(HHO)的混合模型,集成BERT/FastText/MUSE预训练词嵌入与情感特征,在英语、阿拉伯语和西班牙语数据集上实现最高9.44%的准确率提升,为跨语言内容安全提供创新解决方案。

  

在数字化浪潮中,在线评论已成为消费者决策和企业反馈的重要渠道。然而,随着"黑色经济"的膨胀,垃圾评论数量激增——据研究显示,某平台垃圾评论比例从5%飙升至20%。这些虚假内容不仅扭曲产品评价,更可能引发消费者经济损失。尤其在多语言场景下,传统检测方法面临语义理解不足、数据不平衡等技术瓶颈。

为突破这一困境,国外研究团队创新性地将Twin支持向量机(TwinSVM)与Harris Hawks优化算法(HHO)相结合,构建了融合情感特征与预训练词嵌入的混合模型。研究通过Twitter平台采集英语、阿拉伯语和西班牙语评论数据,利用BERT、FastText和MUSE三种预训练模型生成24个不同维度的词向量数据集。实验表明,该模型在阿拉伯语数据集上达到92.9741%的准确率,较基线方法提升显著。

关键技术包括:1) TwinSVM双超平面结构处理数据不平衡;2) HHO算法同步优化参数与特征选择;3) 集成BERT/FastText/MUSE多语言词嵌入;4) 引入情感极性特征增强语义理解。

实验与结果

  1. 基准测试:标准SVM结合不同元启发式算法对比显示,HHO在特征选择中表现最优。
  2. 模型对比:HHO-TwinSVM-Fs在阿拉伯语数据集准确率达92.9741%,较传统SVM提升9.44%。
  3. 跨语言验证:模型在英语(89.0314%)、西班牙语(80.3580%)及多语言混合集(85.0859%)均表现稳健。
  4. 情感增强:引入情感特征后,各语言数据集准确率再提升1.0994%-9.4430%,证实情感信号对垃圾评论的鉴别价值。

结论与意义
该研究首次将TwinSVM-HHO框架应用于多语言垃圾评论检测,通过双超平面结构有效缓解了传统SVM对不平衡数据的敏感性。HHO算法的动态探索机制成功优化了模型参数与特征空间,而预训练词嵌入的引入显著提升了低资源语言(如阿拉伯语)的处理能力。特别值得注意的是,研究揭示了情感特征与评论可信度的强相关性——虚假评论往往呈现情感极化的统计特征。

这项发表于《Expert Systems with Applications》的成果,不仅为平台内容治理提供了可扩展的技术方案,其创新的多语言处理框架更对跨境电子商务、社交媒体监测等领域具有重要启示。未来研究可进一步探索方言变体处理和实时检测系统的开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号