
-
生物通官微
陪你抓住生命科技
跳动的脉搏
零样本汉字识别的多样化特征生成:基于意符描述序列的跨类别表征创新
【字体: 大 中 小 】 时间:2025年08月28日 来源:Expert Systems with Applications 7.5
编辑推荐:
这篇论文创新性地提出多样化特征生成框架(DFG),通过混合语义嵌入(HSE)策略和多样性增强损失(DI-loss),解决了零样本汉字识别(ZSCCR)中未见字符特征单一和领域偏移问题。研究首次将特征生成引入该领域,避免了传统基于部首预测的偏差问题,在多个基准数据集上验证了方法的优越性。
Highlight
本研究提出零样本汉字识别(ZSCCR)的突破性框架——多样化特征生成(DFG),通过意符描述序列(IDS)合成未见字符特征,首次实现不依赖部首预测的跨类别表征。
创新亮点
• DFG框架开创性地采用混合语义嵌入(HSE)策略,通过多子网络生成异构特征,显著提升特征多样性
• 设计多样性增强损失(DI-loss)迫使子网络识别差异化语义,增加类内特征熵值
• 引入预测级特征协作损失(PLFC-loss)缓解领域偏移,实现子网络协同优化
方法论
混合语义嵌入策略
HSE策略融合IDS的多种语义表征(如结构树、部首拓扑),通过并行生成子网络产生语义互补的特征。每个子网络接收不同层级的语义输入(如整字结构、局部部件),配合DI-loss约束:
DI-loss = Σi≠j‖Gi(s)-Gj(s)‖2 + λH(p(y|G(s)))
其中H(·)计算生成特征的预测熵,迫使同类特征保持多样性。
特征协作机制
PLFC-loss通过KL散度对齐子网络的预测分布:
PLFC-loss = Σi,jDKL(pi‖pj)
实验显示该损失使模型在CASIA-HWDB和SCUT-HCC数据集上的调和均值提升3.2%。
局限性
当前方法依赖汉字特有的IDS标注体系,对拉丁语系等缺乏结构化语义的文字适用性有限。
结论
DFG框架为ZSCCR提供了新范式,通过语义驱动的特征生成突破数据稀缺瓶颈,在开放测试集上达到85.7%的top-1准确率,较传统部首方法提升12.6%。
(注:严格保留专业术语大小写如f-VAEGAN、GB18030-2000等,去除文献引用标记[1][2]及Fig.1等图示标识)
生物通微信公众号
知名企业招聘