B-TTDb:一个用于预测最受欢迎的百个表情符号的土耳其推文数据库

《ACM Transactions on the Web》:B-TTDb: A Database of Turkish Tweets for Predicting the Top One Hundred Emojis

【字体: 时间:2025年11月07日 来源:ACM Transactions on the Web

编辑推荐:

  构建了包含15,8201条独特推文的土耳其表情符号预测数据库B-TTDb,经过文本清洗、词干化、停用词过滤和唯一性处理等五阶段预处理,并验证了随机森林、逻辑回归等五种机器学习算法在预测表情符号中的性能,发现线性支持向量分类器(LSVC)表现最佳。

  emoji预测是一项重要的研究任务,旨在为特定文本快速而轻松地找到最合适的emoji(表情符号)。随着土耳其语成为全球使用人数最多的20种语言之一,且在社交媒体上有大量用户,研究土耳其语中的emoji预测具有重要意义。本研究构建了一个名为“Bitirim's Turkish Tweets Database (B-TTDb)”的土耳其语推文数据库,用于学术和工业领域的emoji预测研究。B-TTDb由四个数据集组成,分别是原始推文数据集(RTD)、整理后的推文数据集(OTD)、预处理后的推文数据集(PPTD)以及最终的Bitirim数据集(B-D)。B-D包含158,201条独特的推文,这些推文属于前100个最常使用的emoji类别。为了验证数据库的有效性,研究者在B-D上进行了实验,使用了多种流行的机器学习算法来评估前10、20、50和100个emoji的准确率和F1分数。这一研究被认为是首个为土耳其语推文构建的经过验证的大规模数据库,它不仅丰富了相关领域的研究,还为未来的各种研究提供了基础和启发。

在社交媒体中,用户常常使用emoji来表达情绪、情感和态度。据报告,2021年12月,全球超过21%的推文至少包含一个由Unicode联盟认证的emoji。emoji作为一种新兴的视觉语言,已成为社交媒体不可或缺的一部分,并广泛用于表达短文本中的情感。研究表明,包含emoji的推文更容易被理解且更具可信度。因此,emoji预测的研究在情感分析、自然语言处理和社交媒体分析等领域具有重要价值。目前,已有多个关于emoji预测的研究,涉及多种语言,如中文、英语、日语、阿拉伯语等。然而,针对土耳其语的研究仍相对较少,这使得本研究在该领域的贡献尤为突出。

为了构建B-TTDb,研究者首先从Unicode联盟发布的报告中获取了所有类别中最常用的100个emoji。这些emoji是基于2021年的使用频率进行筛选的。随后,研究者通过X Corporation(原Twitter Incorporated)提供的v2全存档搜索端点,收集了这些emoji相关的土耳其语推文。该端点可以按时间倒序返回最多500条推文。研究者在2022年7月12日至2023年4月4日之间,每天进行一次搜索,共持续100天。需要注意的是,这100天并非完全连续,有些天因技术问题而被跳过。通过这种方式,研究者收集了大量与emoji相关的推文,并将它们整理成原始数据集(RTD)。随后,通过合并每条emoji对应的推文文件,并去除重复和多余内容,形成了整理后的数据集(OTD)。在OTD的基础上,研究者又进行了五轮预处理,最终生成了预处理后的数据集(PPTD)。这些预处理步骤包括去除提及、emoji、单个字母,转换为小写,使用Zargan词典进行词干提取,去除停用词,以及确保每条推文在每个emoji类别中是唯一的。

最终,研究者将所有经过预处理的推文整合为一个CSV文件,命名为Bitirim数据集(B-D)。B-D不仅包含158,201条独特的推文,还涵盖了前100个最常使用的emoji类别。为了进一步验证数据库的有效性,研究者在B-D的基础上,分别构建了四个子数据集:B-D10(前10个emoji类别)、B-D20(前20个emoji类别)、B-D50(前50个emoji类别)和B-D100(前100个emoji类别)。每个子数据集中的推文数量被调整为统一的T-Value,即每个emoji类别中包含3,000、2,250、2,250和1,750条推文。为了实现这一目标,研究者使用了合成少数过采样技术(SMOTE)和近似少数采样技术(NearMiss)来平衡数据集中的样本数量。这些方法在机器学习中常用于解决类别不平衡问题,从而提高模型的预测性能。

在实验过程中,研究者使用了多种机器学习算法,包括随机森林(RF)、线性支持向量分类器(LSVC)、多项式朴素贝叶斯(MNB)、多项式逻辑回归(MLR)和K-近邻(KNN)。所有算法均采用分层10折交叉验证的方法进行训练和测试,以确保实验结果的可靠性和稳定性。通过这种方式,研究者能够获得每个算法在不同数据集上的准确率(AAS)和宏平均F1分数(AMAF1S)。实验结果显示,LSVC在所有数据集中均表现最佳,其准确率和F1分数均高于其他算法。例如,在B-D10数据集中,LSVC的准确率为0.7217,F1分数为0.7145;在B-D100数据集中,LSVC的准确率为0.7523,F1分数为0.7297。这表明LSVC在土耳其语emoji预测任务中具有较高的性能。此外,RF、MLR、MNB和KNN算法在不同数据集上的表现也各具特色,其中RF在B-D100数据集上表现次优,MLR在B-D10数据集上排名第二,MNB和KNN则在多个数据集中表现相对较低。

实验结果表明,LSVC在所有数据集中均表现出色,这可能与其在处理高维数据和非线性分类任务中的优势有关。随机森林算法因其强大的特征选择能力和对过拟合的抵抗性,在多个数据集中也表现良好。多项式朴素贝叶斯和逻辑回归算法则在处理文本分类任务中具有较高的效率,但在某些情况下可能无法捕捉到复杂的文本模式。KNN算法虽然在某些数据集中表现尚可,但其对数据规模和特征维度较为敏感,可能在大规模数据集上表现不佳。因此,研究者认为LSVC是最适合用于土耳其语emoji预测的算法。

通过这些实验,研究者验证了B-TTDb的有效性,并展示了其在emoji预测任务中的应用潜力。此外,研究者还指出,尽管该数据库主要针对土耳其语,但其构建方法和实验结果可能为其他语言的emoji预测研究提供参考。然而,由于研究对象仅限于土耳其语,该数据库在其他语言中的适用性可能受到一定限制。因此,未来的研究可以考虑扩展数据库,以包含更多emoji类别,从而提高其代表性和适用性。

总的来说,本研究构建了一个大规模、高质量的土耳其语推文数据库,为emoji预测任务提供了重要的数据支持。通过使用多种机器学习算法,研究者验证了该数据库的有效性,并发现LSVC在预测任务中表现最佳。这一成果不仅有助于提升土耳其语社交媒体交流的质量,还为相关领域的进一步研究奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号