
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于关系表述多样化与长尾实体增强的少样本关系抽取方法研究
【字体: 大 中 小 】 时间:2025年06月28日 来源:Neurocomputing 5.5
编辑推荐:
本研究针对真实场景中长尾分布数据集的关系抽取(RE)任务,提出融合自然语言推理(NLI)框架的提示调优架构,通过关系标签表述多样化(verbalization diversification)和长尾实体增强策略,在TACRED/Re-TACRED数据集上实现与SOTA可比的结果,为低资源场景下的语义关系识别提供新思路。
在自然语言处理领域,关系抽取(Relation Extraction, RE)作为构建知识图谱的核心技术,长期面临真实场景中数据长尾分布的挑战。尽管基于Transformer的预训练语言模型(PLMs)在RE任务中表现出色,但传统方法在少样本(Few-shot)和零样本(Zero-shot)场景下泛化能力有限。尤其当遇到"GajiGesa"等长尾实体时,模型因缺乏背景知识而性能骤降。现有提示学习(Prompt-tuning)方法虽通过模板映射关系标签,但固定长度的表述(verbalization)难以捕捉复杂语义,而大语言模型(LLMs)又面临计算成本高和幻觉问题。这些瓶颈促使华东师范大学计算机科学与技术学院的研究团队在《Neurocomputing》发表创新研究,提出融合自然语言推理(NLI)框架的增强架构。
研究采用三项关键技术:1) 通过回译(back-translation)和连续标记生成实现关系表述多样化;2) 基于实体链接模型提取细粒度类别信息,构建长尾实体增强数据集;3) 将RE重构为NLI任务,利用预训练蕴含模型的归纳偏置。实验选用TACRED、TACREV和Re-TACRED基准数据集,在完整数据集、少样本和零样本三种场景下验证有效性。
【研究结果】
【结论与意义】
该研究通过创新性地结合表述优化与实体增强,首次系统解决了RE任务中长尾实体泛化与语义表述灵活性的矛盾。其提出的NLI任务重构策略,使模型能利用预训练知识进行语义推理,而自动生成的连续表述突破了传统模板的长度限制。对于医疗健康等领域中专业实体关系的抽取具有重要应用价值,如罕见病相关实体关系的低资源识别。Yiping Liang等作者的工作为小样本NLP任务提供了可扩展的解决方案,相关技术路线已被证实可迁移至事件抽取等序列标注任务。
生物通微信公众号
知名企业招聘