零样本汉字识别的多样化特征生成：基于意符描述序列的跨类别表征创新

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　这篇论文创新性地提出多样化特征生成框架（DFG），通过混合语义嵌入（HSE）策略和多样性增强损失（DI-loss），解决了零样本汉字识别（ZSCCR）中未见字符特征单一和领域偏移问题。研究首次将特征生成引入该领域，避免了传统基于部首预测的偏差问题，在多个基准数据集上验证了方法的优越性。

Highlight

本研究提出零样本汉字识别（ZSCCR）的突破性框架——多样化特征生成（DFG），通过意符描述序列（IDS）合成未见字符特征，首次实现不依赖部首预测的跨类别表征。

创新亮点

• DFG框架开创性地采用混合语义嵌入（HSE）策略，通过多子网络生成异构特征，显著提升特征多样性

• 设计多样性增强损失（DI-loss）迫使子网络识别差异化语义，增加类内特征熵值

• 引入预测级特征协作损失（PLFC-loss）缓解领域偏移，实现子网络协同优化

方法论

混合语义嵌入策略

HSE策略融合IDS的多种语义表征（如结构树、部首拓扑），通过并行生成子网络产生语义互补的特征。每个子网络接收不同层级的语义输入（如整字结构、局部部件），配合DI-loss约束：

DI-loss = Σ_i≠j‖G_i(s)-G_j(s)‖² + λH(p(y|G(s)))

其中H(·)计算生成特征的预测熵，迫使同类特征保持多样性。

特征协作机制

PLFC-loss通过KL散度对齐子网络的预测分布：

PLFC-loss = Σ_i,jD_KL(p_i‖p_j)

实验显示该损失使模型在CASIA-HWDB和SCUT-HCC数据集上的调和均值提升3.2%。

局限性

当前方法依赖汉字特有的IDS标注体系，对拉丁语系等缺乏结构化语义的文字适用性有限。

结论

DFG框架为ZSCCR提供了新范式，通过语义驱动的特征生成突破数据稀缺瓶颈，在开放测试集上达到85.7%的top-1准确率，较传统部首方法提升12.6%。

（注：严格保留专业术语大小写如f-VAEGAN、GB18030-2000等，去除文献引用标记[1][2]及Fig.1等图示标识）

热点排行

联系信箱：

粤ICP备09063491号