基于稠密段落检索与NT-sMoCo对比学习的知识库问答增强方法

【字体: 时间:2025年07月23日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对知识库问答(KBQA)系统在稀疏知识图谱(KB)中难以区分硬正例(Hard-Positive)与硬负例(Hard-Negative)的难题,研究人员提出融合稠密段落检索与温度归一化动量对比学习(NT-sMoCo)的新型框架。实验表明,在WebQSP数据集上Hits@1最高提升7.9%,F1-score提升8%,显著增强了对复杂查询的应答能力。

  

在人工智能蓬勃发展的今天,知识库问答系统(KBQA)作为连接人类自然语言与结构化知识的桥梁,其重要性日益凸显。然而现实中的知识图谱(KB)如同残缺的拼图——尽管Freebase、DBpedia等大型知识库存储了海量(实体,关系,实体)三元组,但面对长尾实体或新兴事实时仍捉襟见肘。更棘手的是,当系统遇到"看似正确实则错误的答案"(Hard-Negative)或"看似错误实则正确的答案"(Hard-Positive)时,传统方法往往束手无策。这种困境导致现有KBQA在WebQSP数据集上的Hits@1指标长期停滞在70%左右,严重制约了实际应用价值。

为突破这一瓶颈,研究人员创新性地将稠密段落检索(Dense Passage Retrieval)与改进的动量对比学习技术相结合,提出名为NT-sMoCo(Normalized Temperature-scaled Momentum Contrast)的新型框架。该研究通过知识扩展(KE)模块挖掘潜在关系,利用骨干网络提取特征,最终通过温度归一化的对比损失函数强化模型对硬样本的区分能力。实验证明,该方法在30%-100%不同覆盖度的知识库条件下均显著优于基线模型,特别是在100%覆盖度时将F1-score提升至65.3%,为稀疏知识图谱下的精准问答提供了新思路。论文成果已发表于《Expert Systems with Applications》。

关键技术方法包含三方面:1)知识扩展模块通过模板化策略增强原始KB,挖掘QA对中的隐含关系;2)采用稠密检索器构建问题-段落嵌入空间;3)创新性设计NT-sMoCo对比学习框架,通过温度系数调节和动量更新机制优化硬样本判别。实验使用WebQSP和GrailQA标准数据集,覆盖度设置包括30%/50%/70%/100%四个层级。

研究结果

  1. 知识扩展模块:通过关系模板和实体链接技术,将原始KB的实体关联密度提升23%,有效缓解了长尾实体覆盖不足问题。
  2. 骨干网络性能:在70%覆盖度下,基础检索模型的Hits@1达到61.8%,较传统IR方法提高9.2%,验证了稠密检索的优势。
  3. NT-sMoCo对比效果:硬正例识别准确率提升14.7%,硬负例误判率降低11.3%,证明温度缩放策略能有效放大细微差异。
  4. 整体系统对比:在WebQSP上,100%覆盖度时Hits@1达77.3%,超越ArcaneQA等前沿模型7.9个百分点;GrailQA数据集上EM(精确匹配)指标提升0.6%。

结论与意义
该研究开创性地将动量对比学习引入KBQA领域,通过NT-sMoCo机制解决了硬样本判别这一核心难题。相较于需要庞大算力的LLM方案,这种轻量级方法在资源受限环境下展现出独特优势:一方面,温度归一化策略有效平衡了相似度分布的陡峭程度;另一方面,动量更新机制稳定了嵌入空间演化过程。实验证实,即使在30%的低覆盖度条件下,系统仍能保持50.3%的Hits@1性能,这对医疗、金融等专业领域的稀疏知识库应用具有重要启示。未来工作可探索该框架在多跳推理和时序知识更新中的扩展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号