NRKE：一种用于口语理解的知识增强框架的去噪技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：NRKE: Noise-Removal of Knowledge-Enhanced Framework for Spoken Language Understanding

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　提出NRKE框架，通过实体选择（BERT辅助）和属性语义筛选减少知识图谱噪声，在PROSLU和自建KGCAIS数据集上验证，提升意图识别和槽填充准确率。

摘要

将外部知识与传统的口语理解（SLU）模型相结合，可以有效减少现实世界场景中用户话语的歧义。知识图谱作为外部知识的常见来源，包含了带有多样化属性信息的实体。然而，现有模型将所有实体都视为相关的，这会在输入数据中引入大量噪声。此外，并非实体的所有属性信息都是必要的，从而导致大量的噪声和冗余。在本文中，我们提出了一种名为“噪声去除增强型知识增强（NRKE）”的SLU框架，该框架采用了两种不同的去噪方法。第一种方法是基于实体选择的硬去噪，我们利用一个小型干净的数据集，并引入了一个基于BERT的辅助模型来过滤掉与用户话语无关的实体，从而有效消除噪声实体。此外，我们还通过结合大型语言模型（LLMs）来进一步优化实体选择，以帮助过滤掉与用户话语无关的实体。第二种方法是基于实体属性信息的软去噪，这种方法利用基于关键词的局部语义选择，对与特定关键词相关的相关局部语义给予更高的权重。这使我们能够从选定的实体中捕获与任务相关的信息，从而最小化噪声和冗余。为了评估现有知识增强型SLU模型的泛化能力，我们构建了一个名为KGCAIS的新数据集。实验结果表明，我们的NRKE在PROSLU和KGCAIS数据集上的表现都优于竞争模型。

AI摘要

AI生成的摘要（实验结果）

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现内容的相关性，并协助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充，作者提供的摘要仍然是文章的官方摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

版本创建于2026年2月6日。

本文探讨了在知识增强型口语理解（SLU）模型中减少噪声的挑战，这些模型结合了外部知识（如知识图谱）来解决用户话语中的歧义。现有模型通常将知识图谱中的所有实体都视为相关的，这导致了由于无关实体和冗余或不必要的属性信息而产生的大量噪声。为了解决这个问题，作者提出了一种名为“噪声去除增强型知识增强（NRKE）”的框架，该框架采用了两种主要的去噪策略。第一种是通过实体选择的硬去噪，其中基于BERT的辅助模型在一个小型、干净的标注数据集上进行训练，以过滤掉与用户话语无关的实体。这一过程通过结合大型语言模型（LLMs）得到进一步增强，后者利用其强大的语义理解和推理能力来改进过滤效果，而不会显著增加标注成本。第二种策略是软去噪，通过选择实体属性信息来实现，该方法利用基于关键词的局部语义选择，对与特定关键词相关的相关局部语义给予更高权重。这使我们能够从选定的实体中捕获与任务相关的信息，从而最小化噪声和冗余。为了评估现有知识增强型SLU模型的泛化能力，我们构建了一个名为KGCAIS的新数据集。实验结果表明，我们的NRKE在PROSLU和KGCAIS数据集上的表现都优于竞争模型。

AI摘要

AI生成的摘要（实验结果）

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现内容的相关性，并协助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充，作者提供的摘要仍然是文章的官方摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

版本创建于2026年2月6日。

本文解决了在知识增强型口语理解（SLU）模型中减少噪声的问题，这些模型结合了外部知识（如知识图谱）来解决用户话语中的歧义。现有模型通常将知识图谱中的所有实体都视为相关的，这导致了由于无关实体和冗余或不必要的属性信息而产生的大量噪声。为了解决这个问题，作者提出了一种名为“噪声去除增强型知识增强（NRKE）”的框架，该框架采用了两种主要的去噪策略。第一种是通过实体选择的硬去噪，其中基于BERT的辅助模型在一个小型、干净的标注数据集上进行训练，以过滤掉与用户话语无关的实体。这一过程通过结合大型语言模型（LLMs）得到进一步增强，后者利用其强大的语义理解和推理能力来改进过滤效果，而不会显著增加标注成本。第二种策略是软去噪，通过选择实体属性信息来实现，该方法利用基于关键词的局部语义选择，对与特定关键词相关的相关局部语义给予更高权重，以使模型专注于最相关的语义信息，从而减少由无关属性引起的噪声。

NRKE框架包括两个版本：NRKE-I主要依赖于基于BERT的实体选择器，而NRKE-II则结合了基于LLM的选择方法以改进实体过滤。该研究在两个数据集上评估了该框架：PROSLU（一个公共的知识增强型SLU数据集）和KGCAIS（一个新创建的、更大且更复杂的数据集，通过将知识图谱集成到现有的SLU数据集中得到）。实验表明，NRKE-II在多个指标上均优于基线模型，包括槽填充准确性、意图检测准确性和整体语义理解能力。NRKE-II的改进性能归因于更有效地去除了噪声实体，并更好地关注了关键的语义属性。消融研究突出了基于BERT和基于LLM的实体选择模块的互补优势，以及局部语义选择机制在强调关键信息方面的贡献。

分析还表明，NRKE的改进在涉及噪声较大的知识图谱类别（如娱乐和交通领域）中尤为显著。可视化结果显示，该模型在处理过程中成功优先考虑了相关的语义成分。案例研究说明了NRKE如何减轻噪声引起的标签混淆，但也指出了在需要更精细知识选择的复杂场景中的局限性。总体而言，NRKE框架通过系统地减少知识图谱中的噪声并使模型关注关键的语义特征，提高了知识增强型SLU的性能，从而改善了现实世界中模糊对话场景下的表现。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号