在使用卷积原型(Convolutional Prototype)的正向-正向算法(Forward-Forward Algorithm)中学习具有区分性的特征
《Pattern Recognition》:Learning Discriminative Features within Forward-Forward Algorithm using Convolutional Prototype
【字体:
大
中
小
】
时间:2026年01月25日
来源:Pattern Recognition 7.6
编辑推荐:
本文提出基于原型学习的Forward-Forward(PLFF)算法,通过将卷积核分组为类原型,利用二进制交叉熵损失分别优化正负样本特征,同时最大化原型间余弦距离,有效提升长尾场景下的分类性能,并在多个数据集上验证优于现有FF方法。
李秋福|李泽文|沈琳琳
深圳大学人工智能学院,中国广东省深圳市518060
摘要
与反向传播算法相比,Hinton [1] 提出的前向-前向(FF)算法可以并行优化深度网络模型的所有层,同时需要更少的存储空间并实现更高的计算效率。然而,目前的 FF 方法无法充分利用样本的标签信息,这抑制了判别特征的学习。在本文中,我们提出了 FF 算法中的原型学习(PLFF)。在优化每个卷积层时,PLFF 首先根据类别数量 K 将卷积核分成不同的组,这些组在优化过程中作为类别原型,称为卷积原型。对于每个样本,根据样本数据与卷积原型之间的卷积结果计算 K 个 goodness 分数。然后,PLFF 通过多个二元交叉熵损失来最大化与样本标签对应的正 goodness 分数,同时最小化其他负 goodness 分数,以学习判别特征。同时,PLFF 最大化 K 个卷积原型之间的余弦距离,从而增强它们的判别能力,进而促进特征的学习。在多个数据集上的图像分类结果表明,PLFF 在不同的 FF 方法中取得了最佳效果。最后,我们首次验证了不同 FF 方法的长尾识别性能,证明了我们的 PLFF 具有更优越的性能。
引言
在深度学习中,反向传播(BP)算法 [2] 主导了深度模型的训练,该算法利用复合函数的导数链式法则逐层计算和传播梯度,从输出层到输入层,以更新参数。在训练过程中,BP 算法需要所有层的梯度信息,这需要存储它们的输出数据,导致高内存消耗,并阻碍了不同层参数的并行优化。同时,BP 算法依赖于全局损失来更新模型权重,这引发了对其生物学有效性的质疑 [3],因为在大脑中,生物突触可以根据局部信号调整它们的连接强度。
2022 年,Hinton [1] 提出了前向-前向(FF)算法,该算法在每个层局部计算损失并独立更新参数,从而显著降低了内存消耗并提高了训练效率,为深度模型的优化提供了一种新策略。在原始的 FF 算法中,Hinton 将真实标签的 one-hot 向量和随机错误的标签硬编码到样本数据中,以构建正样本和负样本。然后,这些数据被输入到深度模型中,通过前向传播逐层计算正负 goodness 分数,并用于独立更新每层的参数。然而,在数据传播过程中,标签信息会减弱,降低了正负 goodness 分数之间的差异,从而减慢了模型优化的速度。Lee 和 Song [4] 以及 Scodellaro 等人 [5] 分别使用二值图像和条纹图像对样本标签进行编码,并在输入深度模型之前将其添加到样本数据中,但他们的方法并未从根本上解决标签信息衰减的问题,也无法充分利用样本与所有负类别之间的标签信息。
通过 FF 并行训练,CaFo [6] 利用可学习的线性分类器和交叉熵(CE)损失充分利用了所有可用的正负标签信息,同时固定了卷积参数,使得有效探索样本数据和提取判别特征变得困难。CwComp [7] 和 DeeperForward [8] 将每层的卷积结果分组以计算正负 goodness 分数,然后根据 goodness 分数通过交叉熵损失更新层参数。这两种方法不仅避免了原始 FF 中的标签信息衰减问题,还充分利用了标签信息来学习表征样本特征的卷积核。然而,在 CE 损失中,指数型的正负 goodness 分数在 Softmax 中耦合在一起,相互干扰 [9],减慢了模型的收敛速度,使其在处理不平衡数据集上的长尾识别(LTR) [10] 等挑战性任务时效果较差。在 LTR 中,从头部类别到尾部类别的训练样本数量显著减少,这与现实世界中的不平衡数据分布更为吻合。在这样的不平衡数据集上训练深度模型时,模型往往受到头部类别的主导,这给模型的设计和训练带来了额外的挑战。
在本文中,我们提出了 FF 算法中的原型学习(PLFF)来学习判别特征。具体来说,在每个卷积层中,PLFF 根据类别数量 K 对卷积核进行分组,根据样本数据和每组卷积核的卷积结果计算 K 个 goodness 分数,并将对应于样本标签的分数指定为正 goodness 分数,其他分为负 goodness 分数。然后,PLFF 应用二元交叉熵(BCE)分别最大化和最小化正负 goodness 分数。通过这种学习策略,每组卷积核最终将封装反映类别中心的原型信息;因此,我们将其视为类别原型的代理,并称之为 卷积原型。此外,PLFF 最大化任意两个卷积原型之间的余弦距离,有助于学习更具判别性的样本特征。与 CwComp 和 DeeperForward 相比,在训练每个层时,PLFF 使用多个 BCE 分别测量样本数据与每个卷积原型之间的正负 goodness 分数,避免了它们之间的干扰,使其更适合处理类别不平衡的挑战性场景。本文的主要贡献如下。
- •
我们首次将类别原型明确引入 FF 算法中,以卷积核作为其代理,并提出了 FF 算法中的原型学习,即 PLFF。
- •
在 PLFF 中,我们使用多个 BCE 损失分别最大化和最小化正负 goodness 分数,避免了它们之间的干扰;同时,PLFF 最大化卷积原型之间的余弦距离,从而有助于通过 BCE 学习判别样本特征。
- •
我们在多个数据集上进行了广泛的实验,PLFF 在各种 FF 方法中取得了最佳的分类结果。此外,我们首次探索了 FF 算法的长尾识别(LTR)性能,PLFF 的表现优于其他 FF 方法。
部分摘录
FF 算法
为了提高深度模型的训练效率,Hinton [1] 提出了前向-前向(FF)算法,该算法借鉴了生物神经系统的信号传输特性。在 FF 算法中,不同层的计算和参数更新是相互独立的,允许并行操作以加速模型训练。原始的 FF 算法将 one-hot 标签硬编码到样本数据中。
提出的方法
在这里,我们正式引入以卷积核作为代理的类别原型,称为 卷积原型,然后基于 CwComp [7] 中使用的深度模型 CFSENet2 介绍了 FF 算法中的原型学习(PLFF)。
实验
在实验中,我们采用了 CwComp [7] 中使用的 CFSE 网络和 DeeperForward [8] 中使用的 ResNet 来评估我们的 PLFF 在多个数据集上的性能,包括 MNIST [37]、Fashion-MNIST [38]、CIFAR-10 和 CIFAR-100 [39]。此外,我们首次探索了各种 FF 方法在长尾识别(LTR)任务上的性能。
结论
本文将原型学习引入前向-前向(FF)算法,并提出了 PLFF。通过以卷积核作为类别原型的代理,并使用二元交叉熵(BCE)来约束样本数据与不同卷积原型之间的正负 goodness 分数,PLFF 显著提高了 FF 算法的分类能力。同时,通过最小化卷积原型之间的余弦相似度,进一步有助于改进
CRediT 作者贡献声明
李秋福:撰写 – 审稿与编辑,监督,形式分析。李泽文:撰写 – 原始草稿,可视化,验证,方法论。沈琳琳:撰写 – 审稿与编辑,监督。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本研究得到了国家自然科学基金(项目编号 62576217 和 8226113862)、宁夏自然科学基金(项目编号 2025AAC020002)、广东省重点实验室(项目编号 2023B1212060076)以及深圳大学青年学者科学基金(项目编号 868-000001032180)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号