ILrLSUMM+：一种融合自然语言处理（NER）技术的多目标框架，用于总结资源匮乏的印度语言中的新闻内容

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：ILrLSUMM+: A NER-Infused Multi-Objective Paradigm to Summarize News in Low-Resource Indian Languages

【字体：大中小】 时间：2026年02月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出基于差分进化算法的多目标优化框架ILrLSUMM+，专为低资源语言印地语和古吉拉特语的新闻摘要设计，通过整合TF-IDF、标题相似度、主题相关性、多样性和命名实体识别，在M3LS数据集上实现ROUGE-1 F1分数分别提升25.17%和27.98%，超越现有图模型和LLM方法。

　　
本研究聚焦于开发针对低资源印度语言（印地语与古吉拉提语）的新闻文本总结框架，通过创新性地融合多目标优化算法与自然语言处理技术，突破了传统方法在语言复杂性和资源稀缺性上的局限性。团队以印度国家信息学院（IIIT）为研究基地，依托M3LS数据集的500篇双语新闻文本，构建了名为ILrLSUMM+的混合式优化模型，在ROUGE-1 F1分数上分别实现了印地语25.17%和古吉拉提语27.98%的显著提升，这一突破性进展为南亚地区多语言信息处理提供了新范式。

在方法论层面，研究团队突破性地将差分进化算法（DE）与多目标优化机制相结合。不同于传统单目标优化模型，ILrLSUMM+同步优化五项核心指标：首先，基于TF-IDF算法构建词汇重要性评估体系，通过词频与逆文档频率的动态平衡捕捉文本核心语义；其次，引入动态语义匹配机制，将句子与文章标题进行向量空间相似度计算，确保摘要与原文主题的高度一致性；第三，开发主题关联度评估模型，通过统计关键内容词的分布特征判断文本主题的相关性；第四，构建多样性约束算法，运用聚类分析技术避免摘要内容重复；第五，创新性地将命名实体识别（NER）模块嵌入优化流程，重点保留人名、地名、机构名等关键信息。

技术实现路径中，研究团队采用二进制差分进化算法（BDE）构建多目标优化框架。该算法通过生成初始解群、迭代计算适应度值、动态调整搜索方向等步骤，在保持解群多样性的同时逼近最优解。具体而言，每个解对应一个包含零与一元素的二进制向量，其中"1"表示保留的句子。算法通过交叉、变异和选择操作持续优化解群，直至达到预设迭代次数或收敛条件。

在数据处理方面，研究团队针对南亚语言特点进行深度优化。首先，构建印地语与古吉拉提语的混合语料库，包含500篇双语新闻文章，通过预处理技术消除方言差异和拼写错误。其次，开发多语言适配的TF-IDF计算模型，采用基于n-gram的局部窗口统计方法增强词汇权重计算。更重要的是，团队设计了动态主题匹配算法，将文章标题编码为向量，并与候选摘要句子进行余弦相似度计算，确保主题一致性。

实验验证部分，研究团队构建了多维度对比体系。横向对比显示，ILrLSUMM+在ROUGE-1、ROUGE-L等指标上均显著优于传统单目标优化模型（如GDE算法）、图结构模型（TGraph）以及主流LLMs（如BERT、GPT-3）。纵向对比则揭示了模型在处理低资源语言时的独特优势：由于未依赖大规模预训练数据，模型在信息密度较低的新闻文本中仍能保持稳定的性能，尤其在实体保留率（NerRetrieval）和主题覆盖率（ThemeCoverage）等指标上优势突出。

实际应用价值方面，研究团队特别关注教育普及与政务信息传播场景。通过案例测试发现，ILrLSUMM+生成的摘要在保留关键数据（如人口统计中的528.3百万印地语使用者特征）的同时，将平均文本压缩率控制在62%-68%之间，较传统方法提升约20个百分点。在古吉拉提语实验中，模型成功识别出55.4百万使用者的文化特征关联词，这对区域文化传播具有重要价值。

创新性体现在三个层面：其一，首次将差分进化算法应用于南亚语言总结领域，解决了传统遗传算法在连续优化空间中的收敛速度问题；其二，开发的多目标协同优化机制突破了单一指标优化的局限，通过五维目标动态平衡实现更全面的摘要质量评估；其三，引入的实体增强模块（NER-Enhanced Module）使模型在保留关键信息方面效率提升40%，显著优于未集成NER的基线模型。

研究团队还通过系统性消融实验验证了各模块的有效性：当移除TF-IDF模块时，摘要核心信息密度下降18%；去除主题匹配模块后，ROUGE-L分数降低至基准值的65%；而取消多样性约束算法，会导致约30%的重复内容。特别值得注意的是，实体识别模块的引入使模型在机构名称识别准确率上达到89.7%，远超传统NLP模型的72.3%基准值。

在技术落地方面，研究团队开发了轻量化部署方案。通过将差分进化算法的迭代过程分解为可并行计算的子任务，使单台服务器可处理超过2000篇/日的新闻摘要生成需求。在资源受限场景测试中，模型在配备4GB内存的嵌入式设备上仍能保持92%的准确率，这对印度农村地区的数字基础设施建设具有重要实践意义。

未来研究方向中，团队计划拓展至其他低资源语言（如孟加拉语、泰米尔语），并探索跨语言知识迁移机制。在优化算法层面，拟将自适应学习率控制与量子计算思想相结合，进一步提升复杂语言场景下的处理效率。同时，研究组正在与印度国家语言学院合作，开发针对少数民族语言的方言自适应模块，计划在三年内实现涵盖20种南亚语言的通用总结框架。

该研究的重要启示在于：低资源语言的技术突破不能简单套用高资源语言的解决方案，而需要从语言特性、社会文化、技术应用三个维度进行系统创新。研究团队通过建立包含语言特征分析（LCA）、技术适配评估（TA）、社会效益模型（SEM）的三维验证体系，为南亚多语言NLP研究提供了可复用的方法论框架。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号