编辑推荐:
针对现有双曲 K-means 聚类使用爱因斯坦中点的挑战,研究人员开展模糊 C - 庞加莱弗雷歇均值(FCPFM)聚类方法研究,构建优化模型并设计算法,还提出核算法与有效性函数。实验表明算法更优,为双曲空间模糊聚类提供思路。
在数据科学蓬勃发展的当下,高维、复杂且无标签的数据如浪潮般涌来,如何从这些数据中精准提取模式成为学界焦点。聚类分析作为无监督学习的重要手段,在数据挖掘与模式识别中扮演关键角色。传统的模糊 C 均值(FCM)算法虽能处理数据模糊性,但在面对噪声、高维数据时力不从心,且多数基于欧氏空间的聚类方法难以捕捉层次结构或复杂几何数据的内在特征,例如在处理树状或分层数据时,欧氏距离的局限性会导致距离度量失真,无法真实反映数据间的几何关系。
为突破这些瓶颈,研究人员开展了双曲空间下模糊聚类方法的研究。来自相关机构的研究人员提出了一种新颖的模糊 C - 庞加莱弗雷歇均值(Fuzzy C-Poincaré Fréchet Means,FCPFM)聚类方法,该研究成果发表在《Expert Systems with Applications》。此研究旨在解决现有双曲 K-means 聚类使用爱因斯坦中点的不足,通过将弗雷歇均值(Fréchet mean,一种在非欧几何中衡量数据中心趋势的方法)引入庞加莱球模型(Poincaré ball model,双曲空间的一种常用表示),构建适用于双曲空间的模糊聚类框架,为高维、层次数据的聚类分析提供新途径。
研究人员主要采用了以下关键技术方法:基于庞加莱球模型构建模糊聚类优化模型,运用拉格朗日乘数法和最小化上界法设计交替迭代算法,并借助 Zangwill 定理和加边海森矩阵分析算法的收敛性;针对含噪声数据,提出鲁棒的核模糊 C - 庞加莱弗雷歇均值聚类算法,引入高斯径向基核函数增强抗噪能力;开发适用于 FCPFM 的聚类有效性函数,用于确定最优聚类数。此外,研究在基准数据集上开展实验,与 FCM、PCM、KFCM 等多种算法进行对比。
实验结果与分析
通过在数值和图像数据集上的测试,FCPFM 算法展现出显著优势。与 FCM(模糊 C 均值)、PCM(可能性 C 均值)、KFCM(核模糊 C 均值)等算法相比,其在高维数据和复杂几何结构数据的聚类中表现更优,能更精准地捕捉数据的层次特征和内在几何关系。实验结果表明,FCPFM 在聚类精度和抗噪声干扰能力方面均优于传统欧氏空间的模糊聚类方法,尤其在处理树状或分层数据时优势明显。
结论与讨论
本研究将弗雷歇均值与庞加莱球模型相结合,提出的 FCPFM 聚类算法成功将模糊聚类拓展至双曲空间,有效解决了欧氏空间中高维数据聚类的局限性问题。通过引入核函数,算法对噪声数据的鲁棒性显著提升,而聚类有效性函数的设计则为实际应用中确定最优聚类数提供了可靠依据。实验验证了该算法在各类数据集上的有效性,特别是在高维和复杂数据场景中表现卓越。此研究不仅丰富了双曲空间下的聚类分析理论,也为树状或分层数据(如生物进化树、社交网络结构等)的分析提供了新的有力工具,对数据科学、机器学习和模式识别等领域具有重要的理论意义和实际应用价值,为后续非欧几何在聚类分析中的深入研究奠定了基础。