推进印地语文本摘要技术:命名实体识别与内容增强策略

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Advancing Hindi Text Summarization: Named Entity Recognition and Content Augmentation Strategies

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  Hindi文本摘要化研究提出NEA-ATS和QDCAS方法。NEA-ATS通过命名实体识别提升信息准确度但易破坏上下文,QDCAS采用主题相关网页爬取增强语境理解,有效提升ROUGE和BERTScore,为多语言应用提供新思路。

  

摘要

我们研究了印地语文本摘要技术的进步,这是自然语言处理领域中的一个关键课题,有助于应对信息过载问题。尽管印地语数据量不断增加,但由于语言特征的复杂性以及资源相对有限(尤其是与英语相比),实际的摘要工具仍存在显著不足。以往的研究主要集中在提取式方法上,但近期向抽象式方法的转变有望通过理解和改写内容来生成更自然、更连贯的摘要。我们的研究提出了两种新的方法:实体驱动的抽象文本摘要(NEA-ATS)基于查询的内容增强摘要(QDCAS),旨在提高印地语摘要的准确性和丰富性。NEA-ATS结合了命名实体识别技术,以优先处理关键信息,从而增强语言模型对重要细节的关注度,但有时会破坏文本的上下文。虽然NEA-ATS取得了一定进展,但其对文本上下文的干扰可能导致摘要质量的提升较为有限。
与此同时,QDCAS通过聚焦网络爬虫技术(有选择地收集特定主题的网页)为源文档补充相关内容,从而解决了现有模型中常见的问题(即“外部幻觉”现象),拓宽了模型的上下文理解能力并提升了输出质量。实证结果表明,QDCAS在ROUGE和BERT分数上优于传统语言模型,显示出一定的改进效果。这项工作推动了印地语文本摘要技术的发展,并探索了内容丰富的摘要策略,这些策略有望应用于其他语言和领域。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号