扩散模型的新信息缺失：聚焦多样化样本在数据增强中的潜力与评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：The Deficit of New Information in Diffusion Models: A Focus on Diverse Samples

【字体：大中小】 时间：2025年10月21日 来源：Information Fusion 15.5

编辑推荐：

　　本文从信息论视角剖析扩散模型（DMs）生成新信息的局限性，提出"多样化样本（DS）"概念及检测方法。研究证实DS能有效提升图像分类任务性能，为数据增强（Data Augmentation）及下游任务泛化提供新思路。作者通过深度特征边界分析揭示DS的稀缺性，强调开发多样性生成模型的迫切性。

亮点

扩散模型虽能生成高质量图像，但其产生超越训练数据的新信息能力尚未明确。本研究通过信息论证明，理想扩散模型仅复制训练数据分布，而实际模型因反向过程近似误差可能产生蕴含新特征的多样化样本（DS）。我们构建DS检测框架，并通过胸部X光片（Chest X-ray）和乳腺超声图像（Breast ultrasound）分类实验验证DS对提升模型泛化能力的显著作用。

相关研究

信息理论

信息理论为量化信息传输提供数学框架，核心概念包括：1）熵（H）——衡量随机变量不确定性；2）互信息（I）——表征变量间信息共享量；3）KL散度——评估概率分布差异。

数据集

实验采用CelebAHQ、FFHQ（人脸图像）及LSUN Churches、LSUN Bedrooms（场景图像）四类数据集，结合五种求解器评估潜在扩散模型（LDMs）的生成多样性。

结论

研究表明扩散模型虽擅长高保真图像生成，但本质是训练数据的"精妙复刻机"。通过深度特征边界挖掘的DS如沧海一珠，其稀缺性警示当前模型创新力的局限，也为下一代多样性生成模型指明突破方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号