零样本汉字识别的多样化特征生成:基于意符描述序列的跨类别表征创新

【字体: 时间:2025年08月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  这篇论文创新性地提出多样化特征生成框架(DFG),通过混合语义嵌入(HSE)策略和多样性增强损失(DI-loss),解决了零样本汉字识别(ZSCCR)中未见字符特征单一和领域偏移问题。研究首次将特征生成引入该领域,避免了传统基于部首预测的偏差问题,在多个基准数据集上验证了方法的优越性。

  

Highlight

本研究提出零样本汉字识别(ZSCCR)的突破性框架——多样化特征生成(DFG),通过意符描述序列(IDS)合成未见字符特征,首次实现不依赖部首预测的跨类别表征。

创新亮点

• DFG框架开创性地采用混合语义嵌入(HSE)策略,通过多子网络生成异构特征,显著提升特征多样性

• 设计多样性增强损失(DI-loss)迫使子网络识别差异化语义,增加类内特征熵值

• 引入预测级特征协作损失(PLFC-loss)缓解领域偏移,实现子网络协同优化

方法论

混合语义嵌入策略

HSE策略融合IDS的多种语义表征(如结构树、部首拓扑),通过并行生成子网络产生语义互补的特征。每个子网络接收不同层级的语义输入(如整字结构、局部部件),配合DI-loss约束:

DI-loss = Σi≠j‖Gi(s)-Gj(s)‖2 + λH(p(y|G(s)))

其中H(·)计算生成特征的预测熵,迫使同类特征保持多样性。

特征协作机制

PLFC-loss通过KL散度对齐子网络的预测分布:

PLFC-loss = Σi,jDKL(pi‖pj)

实验显示该损失使模型在CASIA-HWDB和SCUT-HCC数据集上的调和均值提升3.2%。

局限性

当前方法依赖汉字特有的IDS标注体系,对拉丁语系等缺乏结构化语义的文字适用性有限。

结论

DFG框架为ZSCCR提供了新范式,通过语义驱动的特征生成突破数据稀缺瓶颈,在开放测试集上达到85.7%的top-1准确率,较传统部首方法提升12.6%。

(注:严格保留专业术语大小写如f-VAEGAN、GB18030-2000等,去除文献引用标记[1][2]及Fig.1等图示标识)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号