基于DistilBERT的分支层次分类网络(DB-BHCN)及其在智能交通系统中的高效应用
《International Journal of Cognitive Computing in Engineering》:A DistilBERT-based hierarchical text classification for traffic analysis
【字体:
大
中
小
】
时间:2025年10月25日
来源:International Journal of Cognitive Computing in Engineering CS13.8
编辑推荐:
本文针对层次多标签文本分类(HMTC)中标签依赖关系复杂、训练数据稀缺等挑战,提出了一种基于DistilBERT的分支层次分类网络(DB-BHCN)及其增强版本DB-BHCN+AWX。研究通过引入分支架构和邻接包裹矩阵(AWX)层,有效整合了迁移学习和层次约束,在六个基准数据集上的实验表明,所提方法在F1分数和层次一致性方面均优于现有最先进模型,特别适用于智能交通系统(ITS)中的交通状况分类等实际应用场景。
在当今信息爆炸的时代,如何让计算机像人类一样理解文本的层次化含义,成为自然语言处理领域的重要挑战。特别是在智能交通系统(ITS)等实际应用场景中,一段简单的交通描述可能包含多个层次的语义信息——比如"交通拥堵→事故→车辆碰撞"这样的层次关系。传统的文本分类方法往往将类别视为相互独立的标签,无法捕捉这种复杂的层次结构关系,导致分类结果缺乏语义连贯性。
层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)正是为了解决这一问题而提出的研究方向。与普通的文本分类不同,HMTC要求模型不仅能够预测多个标签,还要保证这些标签之间的层次关系一致性。例如,如果模型预测了一个"车辆碰撞"标签,那么其父标签"交通事故"也必须被预测,否则就会产生层次不一致的错误。这种要求使得HMTC成为文本分类中最具挑战性的问题之一。
尽管近年来预训练语言模型如BERT的出现大大提升了自然语言处理任务的性能,但这些模型并非为处理层次化输出而设计。现有的基于BERT的HMTC方法往往将层次结构作为事后考虑,通过后处理修正或启发式掩码来保证一致性,而没有将层次归纳偏差真正融入到模型训练过程中。此外,真实场景中的训练数据通常存在严重的不平衡分布问题,某些细粒度类别的样本数量极少,这进一步增加了HMTC的难度。
为了解决这些挑战,发表在《International Journal of Cognitive Computing in Engineering》上的这项研究提出了一种创新的解决方案——基于DistilBERT的分支层次分类网络(DistilBERT-based Branching Hierarchical Classification Network, DB-BHCN)及其增强版本DB-BHCN+AWX。
研究人员采用了几个关键技术方法:首先利用轻量级的DistilBERT模型进行迁移学习,有效处理数据稀缺问题;其次设计了分支式神经网络架构,将层次结构的每个级别建模为独立的输出层;然后提出了专门的分层损失函数,通过数学公式(3)-(6)确保层次一致性;最后引入邻接包裹矩阵(Adjacency Wrapping Matrix, AWX)层,通过矩阵运算直接强制执行层次约束。实验使用了六个公开数据集,包括五个亚马逊产品分类数据集和一个沃尔玛数据集,这些数据都具有典型的层次结构特征。
3. The proposed DB-BHCN模型
研究团队设计了一种分支式神经网络架构,其深度与层次结构的深度完全匹配,每一层的输出大小对应该层次的类别数量。模型通过残差连接从每一层分支输出,同时在层与层之间使用非线性函数、层归一化和可调概率的dropout。数据流从DistilBERT编码的特征向量开始,依次通过各个层次,每个非叶子层的输入都是原始特征向量与前一层次输出的拼接。这种设计使得模型能够在保留层次上下文的同时,确保更深层次的预测基于更高层次的决策。
4. The proposed DB-BHCN+AWX
为了进一步增强层次一致性,研究团队在DB-BHCN基础上引入了AWX层。这一层通过固定的二进制矩阵对模型的叶子预测进行处理,确保只有当某个类的后代被自信预测时,该类才会被激活。AWX层有两种变体:理想版本使用max()函数,而更实用的版本使用l-范数近似,两者都通过矩阵R记录叶子节点的祖先关系,实现完全可微的层次约束执行。
在效果评估方面,DB-BHCN在AU(PRC)指标上以0.820的平均分显著优于所有基线模型,而DB-BHCN+AWX在准确率方面以84.9%的表现最佳,同时将层次违规减少了94%。统计显著性检验(Friedman-Nemenyi检验)证实了这些改进的可靠性。在效率测试中,模型在商品硬件上实现了平均124.77毫秒的响应时间,90%的请求在170毫秒内完成,证明了其在实时应用中的可行性。消融研究进一步验证了直接特征输入(DFI)和分层损失函数对性能提升的重要贡献。
研究结论表明,DB-BHCN和DB-BHCN+AWX成功地将迁移学习与层次推理相结合,为解决HMTC中的关键挑战提供了有效方案。特别是在智能交通系统领域,这些模型能够对交通场景的文本描述进行准确且一致的层次分类,为实时交通管理和决策支持提供了可靠的技术基础。虽然AWX层在提高层次一致性的同时会轻微降低AU(PRC)指标,但这种权衡在实际应用中通常是可接受的,因为结构有效性往往比概率可分性更为重要。
这项研究的重要意义在于它首次将BERT家族编码器系统性地应用于HMTC任务,并通过创新的架构设计解决了层次一致性约束的集成问题。与需要复杂后处理或大量计算资源的图神经网络方法相比,DB-BHCN系列模型在保持高性能的同时具有更好的实用性和可部署性。未来,这一研究方向可以进一步探索图神经网络和大型语言模型在层次多标签分类中的应用潜力,推动智能交通系统和智慧城市基础设施的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号