基于主题建模的文本分类:利用词嵌入和Transformer技术研究伊斯兰恐惧症
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Topic Modeling based Text Classification Regarding Islamophobia using Word Embedding and Transformers Techniques
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
伊斯兰恐惧主义文本检测研究采用LDA主题建模与Word2Vec、GloVe词嵌入结合传统BoW特征,对比SVM、CNN等机器学习及Transformer-based深度学习模型(BERT、GPT)性能,结果显示SVM与BERT在F1分数上达91%-92%,验证了混合特征与深度学习在反恐文本识别中的有效性。
摘要
伊斯兰恐惧症是当前时代一个日益令人担忧的问题,穆斯林在日常生活中面临歧视,他们的宗教——伊斯兰教也常常受到负面评价。伊斯兰恐惧症是一种种族主义的表现形式,由个人、团体和组织在全球范围内实施。此外,社交媒体平台的普及及其广泛使用也助长了仇恨言论、虚假信息以及对伊斯兰教的负面看法的传播。在这项研究中,我们专注于检测在各种社交媒体平台上分享的伊斯兰恐惧症相关文本内容。我们探讨了文本数据挖掘和自然语言处理(NLP)领域中的先进技术。采用潜在狄利克雷分配(Latent Dirichlet Allocation)算法来识别主要话题,同时使用Word2Vec和GloVe等词嵌入方法进行特征提取。对于文本分类,我们采用了基于Transformer的深度学习算法,包括双向编码器表示(BERT)和生成预训练Transformer(GPT)。为了对比不同方法的效果,我们使用了传统的文本特征(如词频-逆文档频率、N-gram和词袋模型BoW)对机器学习和深度学习算法进行了实证分析。标准性能评估指标显示,所提出的方法能够有效检测出与伊斯兰恐惧症相关的文本内容。
在机器学习模型的实验数据集中,支持向量机(SVM)的表现最佳,F1分数达到了91%。基于Transformer的核心NLP模型以及结合GloVe的深度学习模型卷积神经网络(CNN)在所有方法中表现最优(仅次于使用BoW的SVM)。GPT、结合BoW的SVM以及BERT分别获得了92%、92%和91.9%的F1分数,而CNN的表现稍差,F1分数为91%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号