一种利用深度学习模型对资源匮乏语言进行情感分析的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：A Novel Approach for Sentiment Analysis of a Low Resource Language Using Deep Learning Models

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　本文针对多媒体物联网（MIoT）中乌尔都语情感分析需求，构建基于CNN和LSTM的深度学习模型。通过爬取乌尔都语博客及社交平台数据，结合自然语言处理预处理技术，训练模型并测试优化。实验表明LSTM模型在准确率（96%）和F1分数（91%）上优于CNN，为MIoT提供高效文本情感分析方案。

摘要

情感分析是一种处理人们的观点、评论和意见以从中提取有价值见解的过程。情感分析可用于市场分析、活动监控、决策制定等多种用途。近年来，尤其是在英语领域，情感分类的研究取得了显著进展。然而，这些现有的英语处理方法无法直接应用于乌尔都语。随着音频、文本、视频和图片等通信内容的大幅增加，物联网（IoT）已经从单一维度的发展转向了多媒体物联网（MIoT）。尽管目前MIoT与自然语言处理（NLP）系统的结合尚未受到足够重视，但它已成为智能应用领域的一个新兴研究方向。本文提出了一种基于深度学习的技术，用于对乌尔都语文本进行句子级情感分析（Urdu SA），以服务于MIoT场景。我们的方法包括数据收集、文本预处理、模型训练、测试和评估等阶段。我们使用了包含2.5万条乌尔都语评论的数据集来训练所提出的模型。该数据集是通过抓取多个乌尔都语博客和社交媒体平台的内容构建的，并且部分IMDB数据在翻译成乌尔都语后也被纳入了数据集。乌尔都语母语者负责数据的标注工作，同时应用了分词、词干提取等多种预处理技术。在本文中，我们使用了两种深度学习模型——卷积神经网络（CNN）和长短期记忆网络（LSTM）——对预处理后的乌尔都语评论进行情感分析。通过调整不同的超参数组合对这两种模型进行了测试，并评估了它们的准确率和F1分数。研究结果表明，LSTM模型的表现优于CNN模型，准确率达到了96%，F1分数为91%。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号