ILrLSUMM+:一种融合自然语言处理(NER)技术的多目标框架,用于总结资源匮乏的印度语言中的新闻内容

《Knowledge-Based Systems》:ILrLSUMM+: A NER-Infused Multi-Objective Paradigm to Summarize News in Low-Resource Indian Languages

【字体: 时间:2026年02月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出基于差分进化算法的多目标优化框架ILrLSUMM+,专为低资源语言印地语和古吉拉特语的新闻摘要设计,通过整合TF-IDF、标题相似度、主题相关性、多样性和命名实体识别,在M3LS数据集上实现ROUGE-1 F1分数分别提升25.17%和27.98%,超越现有图模型和LLM方法。

  
本研究聚焦于开发针对低资源印度语言(印地语与古吉拉提语)的新闻文本总结框架,通过创新性地融合多目标优化算法与自然语言处理技术,突破了传统方法在语言复杂性和资源稀缺性上的局限性。团队以印度国家信息学院(IIIT)为研究基地,依托M3LS数据集的500篇双语新闻文本,构建了名为ILrLSUMM+的混合式优化模型,在ROUGE-1 F1分数上分别实现了印地语25.17%和古吉拉提语27.98%的显著提升,这一突破性进展为南亚地区多语言信息处理提供了新范式。

在方法论层面,研究团队突破性地将差分进化算法(DE)与多目标优化机制相结合。不同于传统单目标优化模型,ILrLSUMM+同步优化五项核心指标:首先,基于TF-IDF算法构建词汇重要性评估体系,通过词频与逆文档频率的动态平衡捕捉文本核心语义;其次,引入动态语义匹配机制,将句子与文章标题进行向量空间相似度计算,确保摘要与原文主题的高度一致性;第三,开发主题关联度评估模型,通过统计关键内容词的分布特征判断文本主题的相关性;第四,构建多样性约束算法,运用聚类分析技术避免摘要内容重复;第五,创新性地将命名实体识别(NER)模块嵌入优化流程,重点保留人名、地名、机构名等关键信息。

技术实现路径中,研究团队采用二进制差分进化算法(BDE)构建多目标优化框架。该算法通过生成初始解群、迭代计算适应度值、动态调整搜索方向等步骤,在保持解群多样性的同时逼近最优解。具体而言,每个解对应一个包含零与一元素的二进制向量,其中"1"表示保留的句子。算法通过交叉、变异和选择操作持续优化解群,直至达到预设迭代次数或收敛条件。

在数据处理方面,研究团队针对南亚语言特点进行深度优化。首先,构建印地语与古吉拉提语的混合语料库,包含500篇双语新闻文章,通过预处理技术消除方言差异和拼写错误。其次,开发多语言适配的TF-IDF计算模型,采用基于n-gram的局部窗口统计方法增强词汇权重计算。更重要的是,团队设计了动态主题匹配算法,将文章标题编码为向量,并与候选摘要句子进行余弦相似度计算,确保主题一致性。

实验验证部分,研究团队构建了多维度对比体系。横向对比显示,ILrLSUMM+在ROUGE-1、ROUGE-L等指标上均显著优于传统单目标优化模型(如GDE算法)、图结构模型(TGraph)以及主流LLMs(如BERT、GPT-3)。纵向对比则揭示了模型在处理低资源语言时的独特优势:由于未依赖大规模预训练数据,模型在信息密度较低的新闻文本中仍能保持稳定的性能,尤其在实体保留率(NerRetrieval)和主题覆盖率(ThemeCoverage)等指标上优势突出。

实际应用价值方面,研究团队特别关注教育普及与政务信息传播场景。通过案例测试发现,ILrLSUMM+生成的摘要在保留关键数据(如人口统计中的528.3百万印地语使用者特征)的同时,将平均文本压缩率控制在62%-68%之间,较传统方法提升约20个百分点。在古吉拉提语实验中,模型成功识别出55.4百万使用者的文化特征关联词,这对区域文化传播具有重要价值。

创新性体现在三个层面:其一,首次将差分进化算法应用于南亚语言总结领域,解决了传统遗传算法在连续优化空间中的收敛速度问题;其二,开发的多目标协同优化机制突破了单一指标优化的局限,通过五维目标动态平衡实现更全面的摘要质量评估;其三,引入的实体增强模块(NER-Enhanced Module)使模型在保留关键信息方面效率提升40%,显著优于未集成NER的基线模型。

研究团队还通过系统性消融实验验证了各模块的有效性:当移除TF-IDF模块时,摘要核心信息密度下降18%;去除主题匹配模块后,ROUGE-L分数降低至基准值的65%;而取消多样性约束算法,会导致约30%的重复内容。特别值得注意的是,实体识别模块的引入使模型在机构名称识别准确率上达到89.7%,远超传统NLP模型的72.3%基准值。

在技术落地方面,研究团队开发了轻量化部署方案。通过将差分进化算法的迭代过程分解为可并行计算的子任务,使单台服务器可处理超过2000篇/日的新闻摘要生成需求。在资源受限场景测试中,模型在配备4GB内存的嵌入式设备上仍能保持92%的准确率,这对印度农村地区的数字基础设施建设具有重要实践意义。

未来研究方向中,团队计划拓展至其他低资源语言(如孟加拉语、泰米尔语),并探索跨语言知识迁移机制。在优化算法层面,拟将自适应学习率控制与量子计算思想相结合,进一步提升复杂语言场景下的处理效率。同时,研究组正在与印度国家语言学院合作,开发针对少数民族语言的方言自适应模块,计划在三年内实现涵盖20种南亚语言的通用总结框架。

该研究的重要启示在于:低资源语言的技术突破不能简单套用高资源语言的解决方案,而需要从语言特性、社会文化、技术应用三个维度进行系统创新。研究团队通过建立包含语言特征分析(LCA)、技术适配评估(TA)、社会效益模型(SEM)的三维验证体系,为南亚多语言NLP研究提供了可复用的方法论框架。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号