
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练词嵌入与集成机器学习模型的阿拉伯语情感分析研究及其在健康医学文本挖掘中的应用前景
【字体: 大 中 小 】 时间:2025年09月12日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本文系统探讨了集成机器学习方法结合预训练词嵌入(Word2Vec)在阿拉伯语情感分析(ASA)中的应用。研究通过合成少数类过采样技术(SMOTE)处理数据集不平衡问题,采用贝叶斯优化进行超参数调优,并在ArTwitter和Syria_Tweets数据集上验证了硬投票集成模型(如NB+SVM+DT)的优越性,最高准确率达92.43%。该研究为跨语言情感计算提供了可扩展框架,对公共卫生舆情监控和患者情感追踪具有重要参考价值。
引言:阿拉伯语情感分析面临语言复杂性、方言多样性、正字法歧义和资源有限等挑战。本研究通过集成机器学习方法结合预训练词嵌入,针对平衡的ArTwitter数据集和高度不平衡的Syria_Tweets数据集开展系统性研究,采用合成少数类过采样技术(SMOTE)处理类别不平衡问题。
材料与方法:研究使用两个数据集:包含2,000条现代标准阿拉伯语推文的ArTwitter数据集,以及1,798条叙利亚方言推文组成的Syria_Tweets数据集(负面1,350条,正面448条)。预处理流程包括停用词去除、标点符号清理、表情符号过滤和字符重复处理等步骤。特征表示采用TF-IDF与n-gram模型以及预训练的ArWordVec词嵌入(Word2Vec Skip-Gram架构,维度300,窗口大小3)。使用贝叶斯超参数优化技术,在特斯拉T4 GPU平台上进行模型训练。
个体机器学习模型包括朴素贝叶斯(NB)、支持向量机(SVM)、随机梯度下降(SGD)、逻辑回归(LR)和随机森林(RF)。集成学习采用硬投票多数决策略,组合不同分类器形成11个集成模型(V1-V11)。评估指标包含准确率、精确度、召回率和F1-score,训练测试集按80/20比例分层划分。
结果:在ArTwitter数据集上,单模型NB在unigram特征上取得89.27%准确率,集成模型V1(NB+SVM+DT)达到90.22%准确率和90.00% F1-score。词嵌入特征进一步提升了性能,V4集成(SGD+SVM+RF)获得92.43%准确率。在Syria_Tweets数据集上,SMOTE处理后V4集成(SVM+DT+KNN)在bigram特征上取得83.82%准确率,词嵌入结合V5集成(SGD+KNN+RF)达到83.82%准确率和83.86% F1-score。
错误分析显示模型在反语识别(如"一夫多妻很美但需要很多钱")、方言变异(海湾地区表达"??"、"????")和混合情感文本上存在局限。与现有研究对比表明,本文提出的集成方法在ArTwitter数据集上准确率超越SVM单模型(90.3%)和深度学习集成模型(83.12%),在Syria_Tweets数据集上F1-score显著优于先前研究的63.95%。
讨论与结论:研究证实预训练词嵌入与集成学习的结合能有效应对阿拉伯语语言复杂性挑战。贝叶斯优化使模型能自适应不同数据集特性,如Syria_Tweets数据集偏好曼哈顿距离和L1惩罚项。该方法为低资源语言情感分析提供了有效解决方案,在健康医学领域的应用包括疾病舆情监测、患者情感支持系统和跨文化心理健康研究。未来方向包括引入Transformer模型、开发方言敏感嵌入和改进细粒度情感分析框架。
生物通微信公众号
知名企业招聘