
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于熵信息加权通道归一化流(Entropy-Informed Weighting Channel Normalizing Flow)的深度生成模型突破
【字体: 大 中 小 】 时间:2025年09月17日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出了一种创新的归一化流架构EIW-Flow,通过引入可逆的Shuffle操作动态调整通道特征映射的权重分配,解决了传统多尺度架构中静态分割导致的表达力限制问题。该模型在CIFAR-10、CelebA等数据集上实现了最先进的密度估计性能与 competitive 样本生成质量,为深度生成模型(如NFs、GANs、VAEs)提供了新的优化方向。
Highlight
多尺度架构(Multi-scale architectures)在深度生成模型中已被广泛研究,用于潜在空间的维度缩减。早期研究提出通过Split操作在不同尺度分割潜在变量,将损失函数分布到整个流模型中,从而显著减少计算和内存消耗。[12]引入了在Split操作前后的unsqueeze和squeeze操作,但传统Split操作仍存在局限性。
Method
本节提出了一种正则化的Shuffle操作,可自适应地 shuffling 潜在变量的通道特征映射。信息丰富的特征被传递到下一尺度,而其他特征形成最终潜在变量 z ~ N(0,I)。Shuffle操作包含三个组件:solver-S(见第4.2节)、guider-G(见第4.3节)和shuffler-SF(见第4.4节)。此外,目标函数中添加了惩罚项(见第4.5节)以正则化Shuffle操作。
Theorem Analysis
在第4节中,我们介绍了Shuffle操作,其有效性将在第6和第7节通过实验证明。然而,其背后的理论机制尚不明确。本节从信息论角度分析Shuffle操作,证明在EIW-Flow框架下,Shuffle增大了 {xk}K-1k=1 和 {zk}K-1k=1 之间的熵差。首先,我们定性分析其熵增特性。
Experimental Setup
所有实验均采用数据集特定配置:对于CelebA、Imagenet64、LSUN Church和CelebA-HQ,使用批量大小16训练70个epoch,采用Adamax优化器(学习率=1e-4,β1=0.9,β2=0.999)。对于CIFAR-10、MNIST和Imagenet32,批量大小增至64,训练延长至650个epoch,学习率降至2e-5,优化器设置不变,并应用0.9975的学习率调度。所有模型均在相同硬件平台上训练。
Visual Quality
视觉质量分析至关重要,因为已知对数似然计算不一定反映视觉保真度。本部分使用FID指标[33]评估EIW-Flow生成样本的视觉质量。FID评分需要大量生成样本以提供无偏估计。由于平台内存限制,我们为所有两个数据集生成50k样本,这也是文献中的默认数量。
Effect of Temperature
我们通过缩放潜在代码为Tz(T∈[0,1])来评估温度退火。当T=1时,不应用温度退火。缩放后的代码映射回数据空间以生成图像(图12)。可见,退火参数T取值从0.8到1(即右侧四张图像)可获得真实图像并保留原始图像的面部细节。然而,当T<0.8时,背景和头发随T减小逐渐消失。
Effect of Shuffle operation
为证明Shuffle操作的效果...
Limitations and Future Work
我们的工作遵循标准归一化流惯例,使用高斯目标分布通过最大熵原则提供理论保证,同时取得强 empirical 结果。未来扩展包括计算优化和针对 specialized 领域的理论适配。首先,将EIW-Flow扩展到非高斯或学习先验可进一步增强模型灵活性,而在非精选数据集上的评估将提高鲁棒性和泛化能力。
Conclusion
本文提出了一种可逆且正则化的Shuffle操作,并将其集成到经典多尺度架构中。 resulting 基于流的生成模型称为熵信息加权通道归一化流(EIW-Flow)。Shuffle操作由三个独立组件组成:solver、guider和shuffler。我们利用中心极限定理和最大熵原则从熵角度证明了Shuffle操作的有效性。
生物通微信公众号
知名企业招聘