基于结构感知的双对抗自动编码器在无监督双语词典构建中的应用
《Artificial Life》:Structure-Aware Dual Adversarial Autoencoder for Unsupervised Bilingual Lexicon Induction
【字体:
大
中
小
】
时间:2025年11月22日
来源:Artificial Life 1.5
编辑推荐:
双语词库诱导需解决拓扑关系建模与噪声问题,本文提出SA-DAAE框架,通过双图卷积网络捕捉单语空间拓扑,双去噪自编码器处理跨空间结构,结合无监督微调策略,实验验证其在15种语言对(含高低同构)上有效。
摘要:
双语词典构建(BLI)是多语言自然语言处理(NLP)中的核心任务,旨在生成不同语言之间的跨语言词表示。然而,以往的研究通常将单词视为独立且孤立的实体,忽略了单一嵌入空间内的拓扑关系以及不同嵌入空间之间的拓扑关系。这种限制使得难以将具有多样拓扑结构的不同语言对中的单词进行匹配,尤其是在语言空间之间不存在同构性假设的情况下。此外,由于模型预训练不足引入的噪声,词表示的质量往往会受到影响,从而导致BLI结果不稳定且不准确。为了解决这些挑战,我们提出了一种新的框架——结构感知的双对抗自编码器(SA-DAAE),该框架能够明确捕捉多样的拓扑结构信息,并以无监督的方式改善语言对齐。在该模型中,首先使用两个轻量级的图卷积网络(GCNs)来发现单语言嵌入空间内的拓扑相关性,然后生成精细的嵌入表示。接下来,引入一个双重去噪自编码器(DAE)模块来去除嵌入中的噪声,并探索不同嵌入空间之间的拓扑结构,从而帮助两种语言初步对齐到一个共享的潜在空间中。为了进一步细化这种粗粒度的对齐,我们设计了一种成对嵌入微调(PEF)策略,该策略不依赖于全局同构性假设,能够以完全无监督的方式实现特定单词的转换。通过在包含十五种语言对的多个数据集上进行广泛实验(这些语言对具有不同程度的语言同构性),我们证明了SA-DAAE的通用性和有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号