一种基于实值离散余弦变换(DCT)的光谱卷积神经网络(CNN)架构,用于高效实现边缘深度学习
《Array》:A real-valued DCT-based spectral CNN architecture for efficient edge deep learning
【字体:
大
中
小
】
时间:2025年11月22日
来源:Array 4.5
编辑推荐:
DCT-based Spectral CNN架构通过完全在离散余弦变换(DCT)域执行卷积、激活和池化操作,消除了逆变换和复数运算,显著降低计算负载(20%)和内存访问成本(19%),并在MNIST和94类ASCII数据集上验证了高效性与高精度(最高98.44%准确率),适用于边缘计算环境。
### 介绍
深度学习作为一种强大的机器学习方法,已经广泛应用于图像识别、语音处理、自然语言处理等复杂任务中。其中,卷积神经网络(CNN)因其在图像特征提取方面的卓越性能,成为深度学习领域的核心模型之一。CNN通过局部感受野、权值共享和池化等机制,有效捕捉图像中的空间层次结构和局部依赖关系,从而在图像分类、目标检测和图像分割等任务中表现出色。然而,尽管CNN在性能上具有显著优势,其在边缘计算和嵌入式系统中的部署仍面临严峻挑战。这主要是由于CNN在计算复杂度和内存需求方面的高开销,尤其是在处理大规模数据时,这些限制会进一步加剧。
为了解决这些问题,研究人员提出了多种基于频域的卷积神经网络(SpCNN)架构。这些方法通过将卷积操作转换为频域中的乘法操作,大幅降低了计算复杂度和内存访问需求。然而,大多数基于FFT的SpCNN模型仍然需要进行频域与空域之间的转换,这不仅增加了计算负担,还引入了额外的内存访问开销。此外,这些模型依赖于复数运算,进一步限制了其在资源受限环境中的应用。因此,开发一种完全基于实数运算、无需逆变换的SpCNN架构,成为提升计算效率和部署灵活性的关键。
本文提出了一种改进的基于离散余弦变换(DCT)的SpCNN架构,该架构在频域中完成所有核心操作,包括卷积、激活和池化,从而消除了对逆变换和复数运算的依赖。通过引入一种改进的实数频域激活函数(修改后的FReLU),该模型实现了在频域中的非线性处理,支持端到端的频域计算。实验结果表明,该模型在计算负担和内存访问方面相比之前的频域模型分别减少了20%和19%,同时在LeNet5架构中实现了更高的分类准确率(98.44%)。此外,该模型在批量和实时推理设置中展现出更快的推理速度和更高的能效,证明了其在资源受限系统中的实用性和可扩展性。
### 方法论
本文提出的DCT-based SpCNN模型的核心在于将所有操作直接在频域中进行,从而避免了频域与空域之间的转换。传统的基于FFT的SpCNN模型通常需要将输入图像转换为频域,执行卷积操作后,再通过逆变换(IFFT)回到空域,这一过程引入了额外的计算和内存访问开销。相比之下,本文的DCT-based模型则完全在频域中完成所有操作,包括卷积、激活和池化,从而显著降低了计算复杂度和内存需求。
为了实现这一目标,我们采用了一种基于DCT的频域卷积机制。具体而言,输入图像首先被转换为DCT域,然后在频域中进行卷积操作,即将卷积核的DCT变换与输入图像的DCT变换进行逐点相乘。这一过程避免了传统卷积操作中的滑动窗口和零填充,从而显著降低了计算复杂度。在激活函数方面,我们引入了一种改进的频域激活函数,即修改后的FReLU。该激活函数通过保留高幅值的DCT系数,去除低能量的成分,实现了有效的非线性处理,同时保持了关键的频域特征。
在池化操作中,我们采用了矩形截断的方法,保留低频DCT系数,去除高频成分。这一方法借鉴了传统频域池化策略,即通过保留主要的信号能量,提高计算效率,同时减少信息损失。这种设计与之前基于傅里叶域的CNN研究一致,表明矩形截断是一种既高效又可靠的池化策略。
为了进一步评估模型的计算和内存效率,我们进行了详细的分析。计算复杂度主要由DCT变换、频域卷积和全连接层组成。其中,DCT变换的复杂度主要取决于图像尺寸和变换的类型,而频域卷积的复杂度则主要由卷积核和输入特征图的尺寸决定。全连接层的复杂度则取决于输入和输出特征的数量。通过比较基于DCT和FFT的模型,我们发现DCT-based模型的计算复杂度显著低于FFT-based模型,特别是在处理高分辨率图像时,DCT的高效性更加明显。
在内存访问方面,DCT-based模型通过避免逆变换,显著减少了内存访问需求。传统的FFT-based模型需要对频域数据进行逆变换,这一过程增加了内存访问的负担。而DCT-based模型由于完全在频域中进行计算,因此无需进行逆变换,从而降低了内存访问成本。通过分析不同模型的内存访问开销,我们发现DCT-based模型在内存效率方面具有明显优势,尤其是在处理高分辨率图像时。
### 实验结果
为了验证本文提出的DCT-based SpCNN模型的性能,我们对其在MNIST和一个包含94个类别的ASCII字符数据集上的表现进行了评估。MNIST数据集由70,000张28×28像素的手写数字图像组成,而ASCII字符数据集则包含了64×64像素的高分辨率图像,涵盖大写和小写字母、数字、符号和标点符号等94个类别。这两个数据集的对比测试揭示了DCT-based模型在不同任务中的优势。
在MNIST数据集上,基于DCT的模型在训练和测试准确率上均优于基于FFT的模型。例如,VGG7-DCT模型在训练准确率上达到了96.99%,而其FFT版本仅为98.75%。这一结果表明,虽然FFT在某些任务中表现更优,但DCT-based模型在准确率上仍能保持较高的水平。同时,LeNet5-DCT模型在训练准确率上达到了99.06%,而其FFT版本仅为98.44%。这表明,在相对简单的任务中,DCT-based模型的性能可能优于FFT-based模型。
在94类ASCII字符数据集上,DCT-based模型同样表现出色。VGG7-DCT模型在训练准确率上达到了97.19%,而其FFT版本仅为99.06%。这说明,虽然FFT在某些复杂任务中表现更优,但DCT-based模型在准确率上仍然具有竞争力。同时,LeNet5-DCT模型在训练准确率上达到了98.13%,而其FFT版本仅为98.13%。这一结果表明,DCT-based模型在保持准确率的同时,能够显著降低计算复杂度和内存访问成本。
在推理性能方面,DCT-based模型同样表现出色。在批量推理模式下,VGG7-DCT模型的推理时间仅为1.68毫秒,而其FFT版本为2.27毫秒。这表明,DCT-based模型在推理速度上具有明显优势。在单图像推理模式下,LeNet5-DCT模型的推理时间为2.52毫秒,而其FFT版本为3.15毫秒。这一结果进一步验证了DCT-based模型在实时推理任务中的高效性。
此外,我们还对模型的训练时间和能量效率进行了分析。在训练时间方面,DCT-based模型的训练时间略高于FFT-based模型,这可能与DCT的高能量压缩特性有关,导致梯度流动受阻,需要更多的迭代次数。然而,在推理任务中,DCT-based模型的推理时间显著优于FFT-based模型,特别是在处理高分辨率图像时。这表明,虽然DCT-based模型在训练过程中可能需要更多的计算资源,但在推理任务中,其高效性更加明显。
在能量效率方面,DCT-based模型同样表现出色。在批量推理模式下,VGG7-DCT模型的能量效率为316.05 cl/J,而其FFT版本为323.83 cl/J。这一结果表明,DCT-based模型在能量效率方面具有优势。在单图像推理模式下,LeNet5-DCT模型的能量效率为8.71 cl/J,而其FFT版本为7.35 cl/J。这说明,DCT-based模型在推理过程中能够更有效地利用计算资源,从而实现更高的能量效率。
综上所述,本文提出的DCT-based SpCNN模型在计算复杂度、内存访问和推理效率等方面均表现出色。虽然在某些情况下,FFT-based模型可能具有更高的训练效率,但DCT-based模型在推理任务中展现出更高的能效和更低的计算负担。这一研究为资源受限环境下的深度学习模型提供了新的思路,同时也为边缘计算和嵌入式系统的部署提供了可行的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号