一项关于自然语言处理（NLP）任务、资源以及针对资源匮乏的泰卢固语-英语混合文本处理技术的调查

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：A survey on NLP tasks, resources and techniques for low-resource Telugu-English code-mixed text

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　本文综述了Telugu-English代码混合文本的研究现状，涵盖资源建设、POS标注、命名实体识别、语言识别、情感分析、应用任务及对话系统等NLP任务，指出数据集和资源不足的问题，并提出未来研究方向。

摘要

随着各种社交媒体平台上非正式内容（如帖子、评论和反馈）的激增，分析混合代码形式的文本变得越来越重要。泰卢固语是一种资源匮乏的印度语言，大量在线内容都是以混合代码的形式生成的。然而，由于缺乏大型语料库、标注数据以及自然语言处理（NLP）资源，针对泰卢固语-英语混合代码数据的研究受到了阻碍。本文综述了现有关于泰卢固语-英语混合文本的文献，涵盖了资源、词性标注（POS tagging）、命名实体识别（Named Entity Recognition）、语言识别、情感分析、应用任务、对话系统以及问答系统等领域的研究。文中详细介绍了该领域研究人员使用的数据集及其应用的方法，并指出了研究中的空白之处，为未来的研究提供了方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号