THAR:针对宗教的针对性仇恨言论:一个高质量的印地语-英语混合数据集,采用深度学习模型进行自动检测
《ACM Transactions on Asian and Low-Resource Language Information Processing》:THAR- Targeted Hate Speech Against Religion: A high-quality Hindi-English code-mixed Dataset with the Application of Deep Learning Models for Automatic Detection
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
针对印地语-英语混合语中宗教仇恨言论的自动检测研究,构建了含11549条评论的高质标注数据集THAR,通过Fleiss Kappa评估标注一致性,并验证多语言模型MuRIL在二分类(F1=0.78)和多分类(F1=0.72)任务中的优越性。
摘要
在过去的十年中,社交媒体作为一种个人表达各种观点的媒介,已经获得了显著的普及。然而,也有一些人利用社交媒体平台通过评论和帖子传播仇恨,其中一些言论针对特定的个人、社区或宗教。鉴于人们对宗教信仰有着深厚的情感联系,这种形式的仇恨言论可能会造成分裂和伤害,并可能导致心理健康问题以及社会秩序的混乱。因此,需要采用算法方法来自动检测仇恨言论。目前该领域的大多数研究都集中在英语社交媒体内容上,结果是许多资源匮乏的语言缺乏完成这项任务的计算资源。本研究试图通过提供一个专为识别印地语-英语混合语言中针对宗教的仇恨言论而设计的高质量标注数据集来填补这一研究空白。该数据集名为“针对宗教的仇恨言论”(THAR),包含11,549条评论,由五位独立标注者进行标注。它包含两个子任务:(i) 子任务1(二分类),(ii) 子任务2(多分类)。为了确保标注的质量,采用了Fleiss Kappa指标进行评估。随后通过应用不同的标准深度学习和基于Transformer的模型进一步验证了该数据集的适用性。基于Transformer的模型“Multilingual Representations for Indian Languages”(MuRIL)在两个子任务中的表现均优于其他模型,子任务1的宏观平均F1分数和加权平均F1分数分别为0.78和0.78,子任务2的相应分数分别为0.65和0.72。实验结果不仅证实了该数据集的适用性,还为自动检测仇恨言论的研究提供了新的进展,尤其是在资源匮乏的印地语-英语混合语言环境中。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号