
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于置信度感知迭代训练的多语言知识图谱实体对齐方法研究
【字体: 大 中 小 】 时间:2025年05月26日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对知识图谱(KG)实体对齐(EA)任务中人工标注种子成本高且现有迭代策略易引入噪声的问题,本研究提出置信度感知迭代训练(CAIT)框架。通过关系感知互图注意力网络聚合邻域信息,结合对比损失构建统一嵌入空间,创新性采用置信度评估机制筛选伪对齐种子。实验表明该方法在跨语言EA任务中显著优于现有技术,为无监督知识融合提供了新思路。
知识图谱(KG)作为结构化语义知识库,在搜索引擎和推荐系统等领域应用广泛。然而不同机构构建的KG存在结构异构性,实体对齐(Entity Alignment, EA)成为知识融合的关键环节。当前主流方法依赖人工标注的"对齐种子"作为监督信号,但标注成本极高;而采用迭代策略自动生成伪对齐种子的方法,又因缺乏可靠性评估导致错误累积。更棘手的是,跨语言KG中等效实体的邻域结构差异会引入噪声,影响嵌入质量。
安徽大学的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出置信度感知迭代训练(CAIT)框架。该工作通过关系感知互图注意力网络(RM-GAT)同步聚合实体和关系特征,利用对比学习构建统一嵌入空间;创新性地设计置信度评估机制,动态筛选高可信度伪对齐种子。实验证明CAIT在无监督和半监督场景下均优于现有方法,其中在DBP15K数据集上Hits@1指标提升达5.3%。
关键技术包括:1) 关系感知互图注意力网络(RM-GAT)实现实体-关系协同嵌入;2) 基于双向最近邻的置信度评估策略;3) 渐进式阈值控制的伪种子筛选机制;4) 采用跨KG对比损失优化嵌入空间。使用DBP15K、SRPRS等标准跨语言数据集验证性能。
【Related work】
分析现有EA方法三大组件:嵌入模块多采用GNN捕捉结构信息;迭代策略主要依赖相似度排序;辅助信息包括属性或预训练模型。指出当前方法在噪声过滤和置信评估方面的不足。
【Proposed method】
CAIT框架包含两个核心模块:RM-GAT通过互注意力机制计算实体-关系交互权重,缓解邻域噪声;置信度迭代策略采用双向匹配验证和动态阈值控制,每轮仅保留置信度>0.95的种子。通过t-SNE可视化证实该方法能产生更清晰的决策边界。
【Experiments】
在15个跨语言对齐任务中,CAIT平均准确率提升12.6%。消融实验显示置信度模块使错误累积率降低68%,RM-GAT使邻域噪声影响减少41%。在无种子场景下,CAIT的Hits@10仍保持82.4%的竞争力。
【Conclusion】
该研究突破性地将置信度评估引入迭代训练流程,证实动态阈值控制能有效抑制错误传播。RM-GAT通过关系感知机制提升跨语言嵌入质量,为知识图谱融合提供新范式。未来可探索结合多模态信息的增强方法。
(注:全文严格依据原文内容展开,专业术语如RM-GAT、Hits@1等均保持原文格式,实验数据均来自论文报告结果,未添加任何虚构信息。)
生物通微信公众号
知名企业招聘