一项关于自然语言处理(NLP)任务、资源以及针对资源匮乏的泰卢固语-英语混合文本处理技术的调查

《ACM Transactions on Asian and Low-Resource Language Information Processing》:A survey on NLP tasks, resources and techniques for low-resource Telugu-English code-mixed text

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  本文综述了Telugu-English代码混合文本的研究现状,涵盖资源建设、POS标注、命名实体识别、语言识别、情感分析、应用任务及对话系统等NLP任务,指出数据集和资源不足的问题,并提出未来研究方向。

  

摘要

随着各种社交媒体平台上非正式内容(如帖子、评论和反馈)的激增,分析混合代码形式的文本变得越来越重要。泰卢固语是一种资源匮乏的印度语言,大量在线内容都是以混合代码的形式生成的。然而,由于缺乏大型语料库、标注数据以及自然语言处理(NLP)资源,针对泰卢固语-英语混合代码数据的研究受到了阻碍。本文综述了现有关于泰卢固语-英语混合文本的文献,涵盖了资源、词性标注(POS tagging)、命名实体识别(Named Entity Recognition)、语言识别、情感分析、应用任务、对话系统以及问答系统等领域的研究。文中详细介绍了该领域研究人员使用的数据集及其应用的方法,并指出了研究中的空白之处,为未来的研究提供了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号