面向模糊数据填补的DIMP与FGAIN方法比较研究:算法构建、评估框架及在生命科学不确定数据处理中的应用前景

《Journal of Computational Science》:Fuzzy data imputation with DIMP and FGAIN

【字体: 时间:2025年11月01日 来源:Journal of Computational Science 3.7

编辑推荐:

  本文针对模糊数据中普遍存在的缺失值问题,系统提出了两种新型填补算法——DIMP与FGAIN。作者创新性地将模糊数(FNs/FIs)的结构特性融入填补流程,并构建了包含误差度量、相似性分析和改进型Kolmogorov-Smirnov检验的评估体系。通过模拟与真实数据集验证,研究表明DIMP在保持数据内在结构和计算效率方面均优于基于生成对抗网络(GAN)的FGAIN方法,为生命科学领域不确定性数据的精准处理提供了重要方法论支撑。

  
数据分解
设X=(Xi,…,Xn)为包含n个模糊观测值的完整样本(即无缺失值),这些观测值通过模糊数(FNs)或模糊区间(FIs)进行建模。每个观测值Xi可通过其关键点(即支撑集和核心集的边界)表征,表示为Xi=(xi,1,…,xi,r),其中模糊数情况下r=3,模糊区间情况下r=4。因此,我们的数据集X实际上可由一个n×r的实数矩阵描述。
为衡量填补误差,从X衍生出两个附加矩阵。首先,对每列...
离散增量方法
下文我们提出一种专门针对模糊数和模糊区间样本的填补方法。该方法巧妙利用模糊值的内在结构——被填补的数据应当与样本中已知的真实模糊数/区间具有相似的数学行为,这意味着其隶属函数的形态在某种程度下应当具有可比性。我们借鉴了先前基于模糊数/区间增量的重采样算法思想(即d-方法)。这种具有统计验证价值的方法...
模拟研究
为控制篇幅,下文仅展示部分图表结果。完整结果可参阅补充文件。以下结论基于全部数据集的分析得出。
结论
本文提出了专门针对模糊数和模糊区间设计的全新填补算法。据我们所知,这是首个解决模糊数缺失值这一重要但被忽视问题的方法。所提出的DIMP方法充分利用了模糊数和模糊区间的结构信息(即核心集与支撑集),其设计灵感来源于重采样机制——该方法已被证明对模糊数的处理效果优于传统Efron自助法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号