利用多种语言特征实现自动提取式文本摘要

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Automatic Extractive Text Summarization using Multiple Linguistic Features

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  本研究提出基于多语言特征和机器学习的印地语抽取式文本摘要方法,结合MLE和ME技术,在BBC、CNN、DUC 2004等中英文混合语料库上验证,实验表明该方法在ROUGE、精度、召回率等指标上优于传统SVM、NB、决策树等模型。

  

摘要

自动文本摘要(ATS)利用自然语言处理(NLP)技术对不同类别的信息进行总结。像印地语这样的低资源语言在这些技术的应用上受到限制。本研究提出了一种利用提取式方法自动生成印地语文档摘要的方法。该方法通过运用多种语言特征和机器学习(ML)技术,结合最大似然估计(MLE)与最大熵(ME),从源文档中检索相关句子。我们对输入文档进行了预处理,包括删除印地语中的停用词和词干提取。我们从每份文档中获得了15个语言特征分数,以识别适合摘要生成的短语。我们在BBC新闻文章、CNN新闻、DUC 2004数据集、印地语文本简短摘要语料库、印度语言新闻文本摘要语料库以及维基百科文章上对所提出的文本摘要方法进行了实验。印地语文本简短摘要语料库和印度语言新闻文本摘要语料库的数据集为印地语版本,而BBC新闻文章、CNN新闻和DUC 2004数据集则通过Google、Microsoft Bing和Systran翻译工具被翻译成印地语以用于实验。我们计算并展示了印地语和英语版本的摘要结果,以便比较低资源语言与高资源语言之间的性能差异。评估过程中使用了多种ROUGE指标以及精确度、召回率和F值,结果显示所提出的方法在多个ROUGE指标上表现更优。我们将该方法与监督学习和无监督学习方法(包括支持向量机(SVM)、朴素贝叶斯(NB)、决策树(DT)、潜在语义分析(LSA)、潜在狄利克雷分配(LDA)和K均值聚类)进行了对比,发现所提出的方法在这些方法中表现更佳。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号