基于关系表述多样化与长尾实体增强的少样本关系抽取方法研究

【字体: 时间:2025年06月28日 来源:Neurocomputing 5.5

编辑推荐:

  本研究针对真实场景中长尾分布数据集的关系抽取(RE)任务,提出融合自然语言推理(NLI)框架的提示调优架构,通过关系标签表述多样化(verbalization diversification)和长尾实体增强策略,在TACRED/Re-TACRED数据集上实现与SOTA可比的结果,为低资源场景下的语义关系识别提供新思路。

  

在自然语言处理领域,关系抽取(Relation Extraction, RE)作为构建知识图谱的核心技术,长期面临真实场景中数据长尾分布的挑战。尽管基于Transformer的预训练语言模型(PLMs)在RE任务中表现出色,但传统方法在少样本(Few-shot)和零样本(Zero-shot)场景下泛化能力有限。尤其当遇到"GajiGesa"等长尾实体时,模型因缺乏背景知识而性能骤降。现有提示学习(Prompt-tuning)方法虽通过模板映射关系标签,但固定长度的表述(verbalization)难以捕捉复杂语义,而大语言模型(LLMs)又面临计算成本高和幻觉问题。这些瓶颈促使华东师范大学计算机科学与技术学院的研究团队在《Neurocomputing》发表创新研究,提出融合自然语言推理(NLI)框架的增强架构。

研究采用三项关键技术:1) 通过回译(back-translation)和连续标记生成实现关系表述多样化;2) 基于实体链接模型提取细粒度类别信息,构建长尾实体增强数据集;3) 将RE重构为NLI任务,利用预训练蕴含模型的归纳偏置。实验选用TACRED、TACREV和Re-TACRED基准数据集,在完整数据集、少样本和零样本三种场景下验证有效性。

【研究结果】

  1. 整体性能:在TACRED测试集上F1值显著超越基线模型,与SOTA方法相比保持统计显著性,尤其在"org:parents"等易混淆关系上区分度提升23%。
  2. 少样本场景:仅用5%训练数据时,通过软表述(soft verbalization)和增强数据(DA)的协同作用,模型较传统Prompt-tuning方法F1值提高18.7%。
  3. 零样本迁移:跨数据集测试表明,连续标记生成的表述方式使新关系类型的识别准确率提升31.2%,验证了方法的领域适应性。
  4. 消融实验:移除数据增强(-w/o DA)或回译模块(-w/o bt)分别导致性能下降12.4%和9.8%,证实各组件必要性。

【结论与意义】
该研究通过创新性地结合表述优化与实体增强,首次系统解决了RE任务中长尾实体泛化与语义表述灵活性的矛盾。其提出的NLI任务重构策略,使模型能利用预训练知识进行语义推理,而自动生成的连续表述突破了传统模板的长度限制。对于医疗健康等领域中专业实体关系的抽取具有重要应用价值,如罕见病相关实体关系的低资源识别。Yiping Liang等作者的工作为小样本NLP任务提供了可扩展的解决方案,相关技术路线已被证实可迁移至事件抽取等序列标注任务。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号