基于迁移学习的文本隐式特征提取:电商企业分类新方法及其在粮油行业的应用验证
《Knowledge-Based Systems》:Introducing transfer learning to extract the implicit features of text: A new method for e-commerce enterprise classification
【字体:
大
中
小
】
时间:2025年10月27日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种基于迁移学习的隐式特征提取模型TL-IFTC,通过构建文本特征库、候选特征筛选、Cluster–Shapley特征评估及跨域分类迁移的四阶段流程,有效解决了企业注册数据中存在的语义稀疏和隐式特征提取难题。实验表明,该模型在粮油企业分类任务中准确率、精确率、召回率和F1值分别提升7.9%、6%、8%和9%,为小样本、弱语义场景下的企业智能分类提供了创新性解决方案。
(1) 提出了一种专用于企业分类的TL-IFTC模型,其特色在于系统化设计了词级特征迁移路径。该模型通过建立从源域特征提取到目标域分类优化的完整流程,突破了传统迁移学习对整体表征或模型参数的依赖。具体而言,模型利用RaNER实体识别模型提取源域显式特征以构建文本分类特征库,引入两阶段匹配机制实现词级语料对齐,并将筛选后的高价值特征嵌入TextCNN分类器。该方法在语义稀疏条件下显著提升了分类准确性与可解释性,实现了词粒度层面迁移学习的落地应用,同时增强了小样本、高噪声场景下的鲁棒性和实用性。
(2) 开发了Cluster–Shapley算法,以平衡特征评估效率与可解释性。通过对压缩后的特征空间进行聚类,并结合组合Shapley值方法,该算法提升了特征贡献度评估的效率和公平性,使其特别适用于大规模候选特征筛选任务。
(3) 构建了跨源特征映射机制,系统化识别隐式特征。通过电商与企业语料间的语义映射及两阶段匹配与分类对比策略,该机制能够自动识别可迁移的隐式特征,有效缓解了语料异质性导致的语义迁移障碍。
(4) 应用RaNER实体识别模型实现特征提取自动化。通过替代人工构建结构化特征库,RaNER模型提升了特征提取阶段结构化特征生成的效率和一致性。
本研究提出了一种面向企业分类的隐式特征提取模型TL-IFTC,并建立了一个涵盖文本分类特征库构建、候选隐式特征筛选、Cluster–Shapley特征值评估及跨源分类增强的完整框架。与传统依赖显式特征或端到端建模的方法不同,该模型融合了跨源语义迁移和词级特征量化机制,为语义稀疏条件下的企业分类任务提供了新的技术路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号