印地语-英语混合文本的去罗马化处理及其对恶意评论分类和情感分析的影响
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Deromanization of Hindi-English Code-Mixed Text and its Influence on Toxic Comment Classification and Sentiment Analysis
【字体:
大
中
小
】
时间:2025年11月25日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
代码混合文本处理面临非标准拼写和语法结构挑战,提出两种解码罗马化策略:无平行语料的多模块模型(语言识别+回译+序列预测)和基于NMT的字符/子词级模型。构建人工标注与合成数据集,实验表明NMT字符级模型在FIRE 2013数据集上提升3%,且增强下游任务分类和情感分析效果。
摘要
在多语言社会中,代码混合现象越来越普遍,这主要是由于社交媒体平台的广泛使用。然而,处理代码混合文本存在重大挑战,主要源于非标准化的拼写和糟糕的语法结构。为了有效利用预训练的多语言模型(如mBERT),我们提出了一种将代码混合文本转写为原始文字的策略。在本文中,我们介绍了两类转写模型。第一类模型包括语言识别模块、回文转写模块和序列预测模块,适用于没有平行语料库的情况。这些组件通过利用上下文共同完成转写任务。在第二类模型中,我们提出了在字符级和子词级上运行的神经机器翻译(NMT)模型,当有平行语料库可用于训练NMT模型时,这类模型提供了另一种转写方法。为了训练这些模型,我们构建了一个人工标注的数据集和一个合成数据集。本文详细描述了所使用的转写模型,并将其与现有模型进行了对比测试。所提出的NMT字符级模型在FIRE 2013数据集上的转写性能提升了3%,超过了当前的最先进水平。此外,结果表明,转写过程显著提高了下游任务(如恶意评论分类和情感分析)的效果,在对XLMR进行微调后,F1分数至少提升了3%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号