推进印地语文本摘要技术:命名实体识别与内容增强策略
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Advancing Hindi Text Summarization: Named Entity Recognition and Content Augmentation Strategies
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
Hindi文本摘要化研究提出NEA-ATS和QDCAS方法。NEA-ATS通过命名实体识别提升信息准确度但易破坏上下文,QDCAS采用主题相关网页爬取增强语境理解,有效提升ROUGE和BERTScore,为多语言应用提供新思路。
摘要
我们研究了印地语文本摘要技术的进步,这是自然语言处理领域中的一个关键课题,有助于应对信息过载问题。尽管印地语数据量不断增加,但由于语言特征的复杂性以及资源相对有限(尤其是与英语相比),实际的摘要工具仍存在显著不足。以往的研究主要集中在提取式方法上,但近期向抽象式方法的转变有望通过理解和改写内容来生成更自然、更连贯的摘要。我们的研究提出了两种新的方法:实体驱动的抽象文本摘要(NEA-ATS)和基于查询的内容增强摘要(QDCAS),旨在提高印地语摘要的准确性和丰富性。NEA-ATS结合了命名实体识别技术,以优先处理关键信息,从而增强语言模型对重要细节的关注度,但有时会破坏文本的上下文。虽然NEA-ATS取得了一定进展,但其对文本上下文的干扰可能导致摘要质量的提升较为有限。
与此同时,QDCAS通过聚焦网络爬虫技术(有选择地收集特定主题的网页)为源文档补充相关内容,从而解决了现有模型中常见的问题(即“外部幻觉”现象),拓宽了模型的上下文理解能力并提升了输出质量。实证结果表明,QDCAS在ROUGE和BERT分数上优于传统语言模型,显示出一定的改进效果。这项工作推动了印地语文本摘要技术的发展,并探索了内容丰富的摘要策略,这些策略有望应用于其他语言和领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号