编辑推荐:
在分析多元分类数据时,传统对应分析等方法的成分解释存在困难。研究人员开展基于组稀疏广义奇异值分解(gsGSVD)的稀疏因子分析研究。结果是创建了 gsGSVD 算法,可稀疏化相关分析方法。这有助于更高效解读数据,推动相关领域发展。
在当今数据爆炸的时代,各类研究收集到的数据规模越来越庞大,结构也愈发复杂。就拿生命科学和健康医学领域来说,研究人员常常要面对包含大量观测样本,同时又被众多变量描述的数据集合。这些变量可能是定量的,比如具体的生理指标数值;也可能是定性的,像疾病的类别、患者的性别等;还有可能是两者的混合。
在处理定性数据时,对应分析(CA)和多重对应分析(MCA,CA 的一种推广形式)是常用的方法。它们就像是数据挖掘的小助手,通过将每个定性变量用一组对应其不同水平的二进制列来表示(这种编码方式在不同领域有不同叫法,如在多元统计中叫 “析取编码” 或 “组编码”,在机器学习里叫 “独热编码” ),进而提取出能够总结定性变量之间关联的成分。这些成分就像是数据的 “精华”,以原始变量的线性组合形式呈现。
然而,理想很丰满,现实却很骨感。当研究人员想要深入理解这些成分时,问题出现了。一个成分要是能由少数几个变量组合而成,并且每个变量只在少数几个(最好是一个)成分中发挥作用,那解读起来自然轻松,这种理想状态被称为 “简单结构”。可实际情况往往不尽人意,很多时候数据并不具备这样的简单结构,成分难以解读,就像一团乱麻,研究人员很难从中梳理出各个变量的贡献。早期的研究者为了解决这个问题,想出了像旋转这样的启发式方法,但这就像是拆东墙补西墙,虽然在一定程度上简化了成分的解释,却牺牲了最优性,有时还会破坏成分之间的正交性。而且,对于那些没有明确结构的数据,这种方法也很难发挥作用。
随着时间的推移,数据变得越来越复杂,传统的方法越发显得力不从心。这时,“稀疏化” 这种现代的数据简化方法出现了。它最初源于多元回归框架,把简化问题转化为一个优化问题,目标是在最小化残差平方和的同时,尽量减小系数的绝对值之和。简单来说,就是把那些对模型贡献不大的变量 “请出” 模型,这样不仅能让模型的预测更可靠,还能让模型更容易被理解。
在这样的背景下,研究人员一直在探索如何将稀疏化应用到与 CA 相关的方法中。虽然之前也有一些尝试,但都存在各种问题。比如,有些方法没有基于明确的优化问题,有些无法保证得到的成分是正交的,还有些方法只是启发式的,没有收敛性证明。直到现在,如何在实现稀疏化的同时保证成分和因子得分的正交性,仍然是一个亟待解决的难题。
为了攻克这个难题,来自多个研究机构的研究人员(文中未明确具体研究机构 )开展了一项关于基于组稀疏广义奇异值分解(gsGSVD)的稀疏因子分析的研究。他们的研究成果具有重要意义,不仅为分析多元分类数据提供了更有效的方法,还在相关领域的数据分析上迈出了重要一步。该研究成果发表在《Computational Statistics》上。
研究人员在这项研究中用到了几个关键技术方法。首先,他们基于广义奇异值分解(GSVD)开发了一种新的稀疏化算法 —— 稀疏 GSVD(sGSVD) 。考虑到一些 CA 相关方法处理的分类数据中,定性变量是由一组二进制列表示的,研究人员进一步对 sGSVD 进行扩展,创建了组稀疏 GSVD(gsGSVD)算法。这种算法通过将相关约束重新构建为凸空间,并将数据投影到这些空间的交集来解决最大化问题,从而在实现稀疏化的同时,保持了 GSVD 的正交性约束。
下面来具体看看研究结果:
- 应用于各类分析方法:研究人员将 gsGSVD 应用到了 CA、MCA 以及它们各自的判别分析版本 —— 判别简单对应分析(DiSCA)和判别多重对应分析(DiMCA)中。这表明该算法具有广泛的适用性,能够为不同类型的数据分析提供支持。
- 数据示例验证:研究人员通过四个不同的数据集对这些稀疏化方法进行了验证。例如,在对美国 2018 年死亡数据(按照年龄和死因分类的列联表数据 )进行稀疏对应分析时,该方法展现出了良好的效果,证明了其在实际数据处理中的有效性。
在研究结论和讨论部分,研究人员指出,他们所创建的 gsGSVD 算法成功地将稀疏化与度量和组约束相结合,同时保持了 GSVD 的正交性约束。通过在四个真实数据集上的应用,充分展示了这些稀疏化方法的分析优势。这一成果为后续在生命科学、健康医学等众多领域处理复杂分类数据提供了有力的工具,有助于研究人员更深入地挖掘数据背后的信息,推动相关领域的研究进展。它不仅能够提高数据分析的效率和准确性,还能让研究人员更轻松地解读分析结果,为进一步的研究和决策提供可靠的依据。