
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向低资源语言的领域自适应跨语言语义对齐学习模型(CLWKD):融合多粒度映射与知识蒸馏的创新框架
【字体: 大 中 小 】 时间:2025年09月19日 来源:Neural Networks 6.3
编辑推荐:
本文针对低资源语言在医学、法律等垂直领域面临的跨语言语义对齐挑战,提出了一种融合多粒度映射与知识蒸馏的创新框架CLWKD。该模型通过领域预训练模型(PLMs)、对抗生成网络(GAN)和形态分解策略,有效解决了数据稀缺、语义空间异构和黏着语形态复杂性问题,在蒙汉、韩汉等多个语对的实验中展现出卓越的跨语言对齐能力。
Section snippets
Pre-trained Language Models
多语言预训练模型:为解决低资源语言在预训练模型(PLMs)中的性能瓶颈,研究者提出了多语言PLMs(如mBERT[1]、XLM[2]),通过联合学习多语言表征提升跨语言迁移能力。这些模型在104种语言的维基百科数据上预训练,在多项跨语言任务中表现出色。
Method
CLWKD框架包含两个阶段(见图1):
第一阶段(第3.1节)基于源语言与目标语言的通用领域平行数据构建统一的多粒度跨语言语义空间。该阶段包含三个功能模块:
① 对目标语言(如蒙古语)实施形态分解策略,将单词切分为词干和词缀,以缓解形态复杂性导致的数据稀疏和未登录词(OOV)问题;
② 通过共享多语言PLM嵌入层,利用高资源语言(如汉语)的表征空间增强低资源语言的初始化嵌入;
③ 在生成对抗网络(GAN)框架中联合学习词级、符号级和句子级的跨语言映射矩阵,并通过生成器预训练和高置信度语对优化提升映射稳定性。
Data and Settings
实验选取蒙古语和韩语作为黏着语代表,以汉语为高资源源语言。蒙古语作为典型低资源黏着语,在主流多语言预训练模型(如mBERT、XLM)中表征不足,其领域语义对齐任务极具挑战性。为验证模型泛化性,实验扩展至韩语。尽管韩语资源相对丰富,但其黏着特性与汉语的语序差异仍对语义对齐构成显著挑战。
Different Word Segmentation Methods for Cross-lingual Semantic Mapping
为缓解数据稀疏问题,本研究结合黏着语的形态特征采用形态分解策略。表8展示了以蒙古语为代表的实验结果:其中“Root”表示仅保留词根形式,“Seg”指切分词缀,“Cut”表示直接去除词缀。
表8显示,去除词缀(Cut)效果最佳,因其在减少形态噪声的同时保留了核心语义单元,显著提升了跨语言映射的稳定性与对齐精度。
Conclusions
本文提出的低资源语言跨语言多粒度语义对齐模型CLWKD,适用于词级和句级语义对齐任务。该框架通过黏着语形态分解、多语言PLM嵌入共享、生成器预训练、映射矩阵梯度优化和阈值筛选等多策略协同,在极低资源场景下实现了领域自适应的语义空间对齐。
生物通微信公众号
知名企业招聘