基于遗传算法的阿拉伯语网络欺凌检测优化方法:特征选择新策略提升分类性能与计算效率
《Scientific Reports》:An optimized Arabic cyberbullying detection approach based on genetic algorithms
【字体:
大
中
小
】
时间:2025年11月05日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对阿拉伯语方言多样性和形态复杂性导致的网络欺凌检测难题,提出一种基于遗传算法(GA)的特征选择优化方法。研究人员通过GA将TF-IDF特征维度从38,035降至19,012,在46k条Instagram评论数据集上使SVM、RF、LR和MNB分类器的F1-score提升3.45-14.96%,分类时间减少2.32-12倍。该工作为低资源语言网络欺凌检测提供了兼顾精度与效率的解决方案。
随着数字通信平台的快速发展,网络欺凌已成为全球性的社会问题。与传统欺凌不同,网络欺凌具有匿名性、传播快和影响持久等特点,尤其对青少年心理健康造成严重威胁,包括焦虑、抑郁甚至自杀倾向。然而,阿拉伯语网络欺凌检测面临独特挑战:方言多样性(如埃及、海湾地区方言)、非正式拼写变异、复杂语法结构以及文化语境敏感性,使得传统检测工具难以准确识别有害内容。
为解决这一难题,来自亚历山大大学的研究团队在《Scientific Reports》上发表了题为"An optimized Arabic cyberbullying detection approach based on genetic algorithms"的研究论文。该研究创新性地将遗传算法(Genetic Algorithm, GA)应用于阿拉伯语网络欺凌检测的特征选择环节,在保证检测精度的同时显著提升了计算效率。
研究方法上,团队首先收集了46,898条阿拉伯语Instagram评论,通过去重、标准化等预处理后得到39,066条有效数据,标注为"积极(非网络欺凌)"、"消极(网络欺凌/有毒)"和"中性(不确定)"三类。采用TF-IDF(Term Frequency-Inverse Document Frequency)进行特征提取后,利用GA进行特征选择,最终通过支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)和多项式朴素贝叶斯(MNB)四种分类器评估性能。
研究采用遗传算法进行特征选择,以SVM加权F1-score为适应度函数,通过选择、交叉和变异操作迭代优化特征子集。针对类别不平衡问题,使用SMOTE(Synthetic Minority Over-sampling Technique)技术增强训练数据多样性。特征表示采用TF-IDF结合unigram和biggram模型,有效捕捉阿拉伯语的语言特征。
研究首先验证了完整特征集(38,035维)下四种分类器的性能,结果显示其准确率、精确率、召回率和F1-score与已有基准结果误差均在1%以内,证实实验设置的正确性。
遗传算法成功将特征维度降低50%至19,012维,在保留关键语义特征的同时去除冗余和噪声。特征选择过程通过二进制染色体编码、锦标赛选择和适应度评估实现,确保所选特征对分类任务具有最大判别力。
SVM表现最优,准确率提升2.76个百分点,F1-score提升5.61个百分点。逻辑回归(LR)的F1-score提升最为显著,达8.83个百分点,说明特征选择对线性分类器边界划分有重要改善。随机森林(RF)在准确率和F1-score分别提升2个和3.61个百分点的同时,推理时间从29.4秒大幅减少至2.44秒。
特征降维带来显著的时间效益:SVM推理时间减少57%,RF减少92%,LR和MNB均能在3秒内完成测试集评估。这种效率提升使得大规模实时网络欺凌监测成为可能。
该研究的创新点在于首次将遗传算法特征选择(GA-FS)系统应用于阿拉伯语网络欺凌检测,有效解决了高维特征空间下的过拟合和计算复杂度问题。针对阿拉伯语丰富的形态变化和方言差异,GA能够识别具有文化语境敏感性的关键语言特征,如否定词、方言特定词汇等。
从方法论角度看,该研究与现有文献中基于鲸鱼优化算法(Whale Optimization)和粒子群优化(PSO)的特征选择方法形成互补,证实了元启发式算法在复杂语言处理任务中的通用性。特别值得注意的是,尽管特征选择过程本身有一定计算成本,但这是一次性投入,在长期大规模应用中可带来持续效益。
研究也存在一定局限性:数据集仅来源于Instagram平台,对Twitter、Facebook等其他社交媒体的泛化能力有待验证;中性标签可能无法完全捕捉隐含欺凌意图的评论;未与卡方检验、互信息等传统特征选择方法进行直接对比。
未来研究方向包括跨平台验证、实时监测系统开发、可解释人工智能(XAI)技术结合以及参数敏感性分析。特别值得关注的是将GA选出的特征与SHAP、LIME等解释性模型结合,增强检测结果的可信度和可操作性。
本研究证明遗传算法特征选择能显著提升阿拉伯语网络欺凌检测的精度和效率,在特征维度减少50%的情况下不仅保持而且改善了分类性能。该方法为阿拉伯语等形态复杂语言的心理健康研究提供了可扩展、可解释的技术方案,对构建包容性数字安全环境具有重要实践价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号