卡西语社交媒体评论中的辱骂性语言检测

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Abusive Language Detection in Khasi Social Media Comments

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  卡西语低资源语言中,基于KALD数据集(4573条标注评论)构建词嵌入,对比深度学习、传统机器学习及跨语言零样本模型(LaBSE/LASER)效果,XGBoost和SVM模型分别达到0.90725和0.91945 F1分数。

  

摘要

本文介绍了针对卡西语(Khasi)自动化检测辱骂性语言的工作。卡西语主要在印度梅加拉亚邦使用,属于资源较少的语言。我们创建了一个名为“Khasi辱骂性语言数据集”(KALD)的数据集,其中包含4,573条由人工标注的卡西语YouTube和Facebook评论。我们还构建了一个卡西语文本语料库,并利用该语料库生成了Khasi word2vec和fastText词嵌入模型。研究中采用了深度学习、传统机器学习以及集成模型。实验分别使用了word2vec、fastText以及通过LDA得到的主题向量。此外,我们还测试了像LaBSE和LASER这样的零样本跨语言模型是否适用于卡西语的辱骂性语言检测。最终,XGBoost分类器的F1分数最高,达到了0.90725;经过特征选择和数据集重新平衡后,基于SVM的分类器分别获得了0.91828和0.91945的F1分数。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号