通过调整类别权重和优化特征,在泰米尔语混合编码数据中检测滥用评论

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Abusive Comment Detection in Tamil Code-Mixed Data by Adjusting Class Weights and Refining Features

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  针对低资源语言泰米尔-英语混合文本的滥用评论检测问题,本研究提出融合定制训练词汇、统计与语言无关特征选择及解释性AI优化的新方法。实验在失衡数据集上取得74%准确率和0.46宏F1值。

  

摘要

近年来,互联网上各种平台上的大量内容被发现有攻击性或辱骂性。检测辱骂性评论可以在很大程度上防止互联网用户受到辱骂性语言的负面影响。当这些评论出现在资源较少的语言(如泰米尔语)或泰米尔语与英语混合的文本中时,这个问题变得更加具有挑战性。迄今为止,尚未有使用不平衡数据集进行辱骂性评论检测的实质性研究。此外,特别是针对泰米尔语混合数据的研究也非常有限,这些研究通常仅涉及对数据集进行分类分析,并据此创建自定义词汇表以进行预处理。本文提出了一种新颖的方法,该方法利用定制的训练词汇表以及统计特征选择与语言无关的特征选择相结合的方式,同时运用可解释的AI技术对特征进行优化,从而对不平衡数据集中的辱骂性评论进行分类。我们的模型实现了74%的准确率和0.46的宏F1分数。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号