印地语模因中冒犯性内容的多模态检测

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Multimodal Detection of Offensive Content in Hindi Memes

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  检测印地语文本与图像结合的多模态Logistic回归模型,处理9262张不平衡数据集(3482冒犯/4780非冒犯),通过undersampling生成3732张平衡数据集,最终实现81%分类准确率。

  

摘要

社交媒体平台极大地促进了诸如思想交流、商业宣传、与同龄人联系以及获取最新信息等活动。在一种被称为“模因”(meme)的独特媒体形式中,信息通过图像与文本或文本与图像之间的关联关系进行传播。流行的模因往往是由用户自发传播的,而非通过营销或广告手段推动的,这体现了社交媒体用户对模因的积极参与程度。鉴于模因的广泛传播,人们迫切需要一种方法来识别并抵制在社交媒体平台上传播的仇恨言论。本研究提出了一种多模态机器学习方法来检测具有攻击性的模因,其中模因的文本采用印地语的天城文(Devanagari)书写。研究人员创建了一个包含9262张图片的数据集,并将这些图片标记为具有攻击性或非攻击性。由于该数据集严重不平衡,因此通过抽取部分数据(共3732张图片)创建了另一个数据集,然后使用这两个数据集对模型进行训练。最终,通过一个结合了图像和文本特征表示的多模态逻辑回归分类器解决了这一分类问题,模型的准确率达到了0.81。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号