基于人口统计特征的情感分析方法:用于检测低资源语言环境下的仇恨言论推文
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Demographical Based Sentiment Analysis for Detection of Hate Speech Tweets for Low Resource Language
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
针对乌尔都语低资源语言环境下的社交媒体滥用内容检测与地理时序分析,本研究通过爬虫工具snscraper构建了2018-2022年间巴基斯坦 punjab省36个地区的20万条乌尔都语标注数据集,采用传统BoW/Tf-idf与深度LSTM/CNN混合模型实现分类,最佳F1分数达64%,CNN准确率达93%,并基于 choropleth 地图与时间序列图完成地域分布与舆情演化分析。
摘要
信息技术和通信技术的进步使得社交媒体用户能够迅速在全球范围内传播他们的想法和观点。然而,这一传播过程本身也产生了大量数据,这些数据带来了巨大的挑战。近年来,言论自由的实施导致了互联网上攻击性和仇恨言论内容的激增,这严重侵犯了基本人权。在资源丰富的语言中检测社交媒体上的恶意内容已成为研究人员关注的焦点。然而,由于缺乏大量语料库以及语言本身的复杂性,资源较少的语言在这些研究中处于不利地位。本研究提出的方法主要分为两部分:一部分是检测恶意内容,另一部分是对本地开发的数据集进行人口统计分析。研究首先通过名为snscraper的网络抓取工具从Twitter中收集了20万个未标记的乌尔都语数据点,这些数据涵盖了巴基斯坦旁遮普省的36个地区,时间跨度为2018年至2022年4月。该数据集被分为三类:中性、攻击性和仇恨言论。在数据清洗之后,利用传统的特征提取技术(如Bow和tf-idf)以及词和字符n-gram、词嵌入word2Vec等方法对数据进行了处理。该数据集分别用机器学习算法SVM和逻辑回归,以及深度学习技术长短期记忆网络(LSTM)和卷积神经网络(CNN)进行了训练。在这组数据上,LSTM算法取得了最高的F分数(64),而CNN算法的准确率为93%。为了可视化数据在旁遮普省36个地区的分布情况,使用了等值区域地图(Choropleth map);时间序列图则展示了2018年4月至2022年这五年间的数据变化趋势。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号