通过调整类别权重和优化特征，在泰米尔语混合编码数据中检测滥用评论

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：Abusive Comment Detection in Tamil Code-Mixed Data by Adjusting Class Weights and Refining Features

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　针对低资源语言泰米尔-英语混合文本的滥用评论检测问题，本研究提出融合定制训练词汇、统计与语言无关特征选择及解释性AI优化的新方法。实验在失衡数据集上取得74%准确率和0.46宏F1值。

摘要

近年来，互联网上各种平台上的大量内容被发现有攻击性或辱骂性。检测辱骂性评论可以在很大程度上防止互联网用户受到辱骂性语言的负面影响。当这些评论出现在资源较少的语言（如泰米尔语）或泰米尔语与英语混合的文本中时，这个问题变得更加具有挑战性。迄今为止，尚未有使用不平衡数据集进行辱骂性评论检测的实质性研究。此外，特别是针对泰米尔语混合数据的研究也非常有限，这些研究通常仅涉及对数据集进行分类分析，并据此创建自定义词汇表以进行预处理。本文提出了一种新颖的方法，该方法利用定制的训练词汇表以及统计特征选择与语言无关的特征选择相结合的方式，同时运用可解释的AI技术对特征进行优化，从而对不平衡数据集中的辱骂性评论进行分类。我们的模型实现了74%的准确率和0.46的宏F1分数。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号