MIMIC:在印地语-英语混合编码的多模态互联网内容中识别厌女情绪

《ACM Transactions on Asian and Low-Resource Language Information Processing》:MIMIC: Misogyny Identification in Multimodal Internet Content in Hindi-English Code-Mixed Language

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  本研究针对低资源语言中多模态性别歧视内容检测的挑战,构建了含5054个印地-英语混合memes的标注数据集,采用文本、图像及多模态融合模型进行对比实验,发现多模态融合方法在检测中表现最优,验证了数据集的有效性及研究价值。

  

摘要

多年来,社交媒体已成为人们表达观点和分享各种想法的最受欢迎的平台之一。社交媒体内容现在包括文本、图片、视频等多种元素。其中一种受欢迎的形式是模因(meme),它们通常结合了文本和图片。需要指出的是,由于社交媒体是一个不受监管的平台,有时也会出现歧视性、冒犯性或仇恨性的内容。这类内容会对用户的在线体验产生负面影响。因此,开发能够自动检测此类内容的计算模型非常重要,以便采取适当的纠正措施。目前已有许多研究致力于自动检测这类内容,主要集中在文本方面。然而,多模态数据(如模因)的融合在开发能够处理此类数据的计算模型时带来了诸多挑战,尤其是在资源匮乏的语言环境中。其中一个主要问题是缺乏适合用于开发低资源语言模因处理模型的数据集。本研究试图通过提供一个包含5,054个印地语-英语混合语言模因的大型定制数据集来填补这一研究空白,这些模因由三位独立注释者进行了手动标注。该数据集包含两个子任务:(i)子任务1(二分类,将模因标记为厌女或非厌女);(ii)子任务2(多标签分类,将模因分为不同的类别)。数据质量通过计算Krippendorff alpha指数进行评估。随后在三种环境下对数据应用了不同的计算模型:仅文本模型、仅图像模型以及使用融合技术的多模态模型。结果表明,所提出的基于融合技术的多模态方法可能是识别多模态互联网内容中厌女言论的首选方法,并且该数据集适合推动该领域的研究与发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号