基于混合Transformer-CNN架构的印地语社交媒体敌意内容多模态检测模型SMA-CFM研究

【字体: 时间:2025年05月23日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  【编辑推荐】针对印地语社交媒体敌意内容检测难题,研究人员开发了集成表情符号特征的CM-HTHPD数据集(8300条标注推文),并提出新型混合模型SMA-CFM(Scaled Multi-Head Attention-Convolution Neural Network Fusion Model)。该模型通过可训练注意力缩放机制融合XLM-RoBERTa与Emoji2Vec嵌入,在五分类任务中F1-score最高达81.08%,显著优于传统LSTM/CNN方法,为多模态敌意内容识别提供了创新解决方案。

  

在数字时代浪潮中,印度社交媒体的爆炸式增长带来了前所未有的连接便利,也催生了仇恨言论、诽谤等敌意内容的泛滥。作为全球第三大语言的印地语,其30.3百万推特用户长期缺乏有效的本土化内容审核工具。更棘手的是,现代社交媒体交互已演变为文字、表情符号、代码混合(如Hinglish)的复杂生态系统,传统基于纯文本的检测模型难以捕捉"用??掩饰辱骂"等隐蔽敌意。现有研究多聚焦英语或忽略表情符号语义,而印地语领域仅有的数据集如Bhardwaj等(2020)也缺乏多模态特征整合,导致模型在真实场景中的表现大打折扣。

为突破这些瓶颈,研究人员开发了首个集成表情符号特征的印地语敌意内容数据集CM-HTHPD(8300条Devangari推文),并提出创新性混合架构SMA-CFM。该模型通过三大技术突破实现性能飞跃:首先采用XLM-RoBERTa和Emoji2Vec构建多模态嵌入,解决传统文本嵌入对表情符号不敏感的问题;其次设计可训练缩放系数的多头注意力(Scaled Multi-Head Attention),动态调整"辱骂性词汇vs讽刺表情"的权重分配;最后通过CNN层捕捉局部语法模式,形成全局-局部特征互补。实验证明该模型在五分类任务中全面超越基线,其中仇恨类(Hate)F1-score达81.08%,诽谤类(Defamation)78.58%,尤其擅长识别代码混合语境下的间接敌意。

关键技术方法
研究采用三阶段流程:1)构建CM-HTHPD数据集,包含8300条人工标注的印地语推文(五类别:Abusive/Defamation/Hate/Offensive/Non-Hostile);2)特征工程阶段融合XLM-RoBERTa文本嵌入与Emoji2Vec表情向量;3)模型架构上,先通过Transformer块提取全局依赖,再经CNN捕捉局部模式,最后用可训练参数β缩放注意力权重。对比实验涵盖LSTM、纯CNN及GloVe+Emoji等基线模型。

研究结果
Abstract部分结论
SMA-CFM在XLM-RoBERTa+Emoji2Vec组合下取得最优性能,四类F1-score分别为:Abusive 79.86%、Defamation 78.58%、Hate 81.08%、Non-Hostile 76.40%。GloVe+Emoji在Offensive类表现最佳(78.58%),证实多模态嵌入的有效性。

Introduction部分发现
对比Bohra等(2018)的代码混合检测和Chakraborty等(2024)的BERT方案,本研究的注意力缩放机制使间接敌意识别准确率提升12.7%。案例显示模型能有效解析"文字友善+??表情"的矛盾语义。

Proposed methodology技术突破
可训练参数β通过反向传播自动优化,使模型对"高敌意词汇+中性表情"组合的注意力权重比传统Transformer提高23%。CNN层的3×1卷积核专门捕获印地语复合动词的敌意特征模式。

结论与意义
该研究首次证实表情符号在印地语敌意检测中的语义价值,其构建的CM-HTHPD数据集填补了多模态印地语资源的空白。SMA-CFM的创新性在于:1)通过可训练注意力实现文本-表情符号的动态交互建模;2)CNN-Transformer混合架构兼顾语法局部性与语义全局性。实际应用中,该模型可部署为社交媒体实时过滤系统,尤其适合处理印度年轻网民常用的代码混合表达。未来研究可扩展至其他印度方言,并探索视频、GIF等多模态特征融合。论文成果发表于《Engineering Applications of Artificial Intelligence》,为低资源语言的网络内容治理提供了可复用的技术范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号