一项关于自然语言处理(NLP)任务、资源以及针对资源匮乏的泰卢固语-英语混合文本处理技术的调查
《ACM Transactions on Asian and Low-Resource Language Information Processing》:A survey on NLP tasks, resources and techniques for low-resource Telugu-English code-mixed text
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本文综述了Telugu-English代码混合文本的研究现状,涵盖资源建设、POS标注、命名实体识别、语言识别、情感分析、应用任务及对话系统等NLP任务,指出数据集和资源不足的问题,并提出未来研究方向。
摘要
随着各种社交媒体平台上非正式内容(如帖子、评论和反馈)的激增,分析混合代码形式的文本变得越来越重要。泰卢固语是一种资源匮乏的印度语言,大量在线内容都是以混合代码的形式生成的。然而,由于缺乏大型语料库、标注数据以及自然语言处理(NLP)资源,针对泰卢固语-英语混合代码数据的研究受到了阻碍。本文综述了现有关于泰卢固语-英语混合文本的文献,涵盖了资源、词性标注(POS tagging)、命名实体识别(Named Entity Recognition)、语言识别、情感分析、应用任务、对话系统以及问答系统等领域的研究。文中详细介绍了该领域研究人员使用的数据集及其应用的方法,并指出了研究中的空白之处,为未来的研究提供了方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号