扩散模型的新信息缺失:聚焦多样化样本在数据增强中的潜力与评估
《Information Fusion》:The Deficit of New Information in Diffusion Models: A Focus on Diverse Samples
【字体:
大
中
小
】
时间:2025年10月21日
来源:Information Fusion 15.5
编辑推荐:
本文从信息论视角剖析扩散模型(DMs)生成新信息的局限性,提出"多样化样本(DS)"概念及检测方法。研究证实DS能有效提升图像分类任务性能,为数据增强(Data Augmentation)及下游任务泛化提供新思路。作者通过深度特征边界分析揭示DS的稀缺性,强调开发多样性生成模型的迫切性。
扩散模型虽能生成高质量图像,但其产生超越训练数据的新信息能力尚未明确。本研究通过信息论证明,理想扩散模型仅复制训练数据分布,而实际模型因反向过程近似误差可能产生蕴含新特征的多样化样本(DS)。我们构建DS检测框架,并通过胸部X光片(Chest X-ray)和乳腺超声图像(Breast ultrasound)分类实验验证DS对提升模型泛化能力的显著作用。
信息理论为量化信息传输提供数学框架,核心概念包括:1)熵(H)——衡量随机变量不确定性;2)互信息(I)——表征变量间信息共享量;3)KL散度——评估概率分布差异。
实验采用CelebAHQ、FFHQ(人脸图像)及LSUN Churches、LSUN Bedrooms(场景图像)四类数据集,结合五种求解器评估潜在扩散模型(LDMs)的生成多样性。
研究表明扩散模型虽擅长高保真图像生成,但本质是训练数据的"精妙复刻机"。通过深度特征边界挖掘的DS如沧海一珠,其稀缺性警示当前模型创新力的局限,也为下一代多样性生成模型指明突破方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号