编辑推荐:
在多响应变量数据集里,缺失值是个大难题。研究人员开展 MIPLS2 算法研究,利用两个数据块间的协方差处理 Y 块缺失值。结果显示,MIPLS2 优于传统方法,能有效解决复杂缺失数据问题,提升预测准确性。
在当今数据驱动的科研时代,各类实验和观测产生了海量数据。然而,数据缺失的问题却如同一颗 “暗雷”,时刻威胁着研究的准确性和可靠性。尤其是在包含多响应变量的数据集中,缺失值的出现更是让科研人员头疼不已。
传统的缺失值填补方法,像简单的变量均值或中位数填补,操作虽然简单,但过于 “粗糙”,完全忽略了数据间潜在的复杂关系,就好比用一块 “万能补丁” 去修补各种漏洞,效果往往不尽如人意。而稍微复杂点的方法,比如基于单一数据块协方差结构的填补,虽然前进了一步,但也只是 “管中窥豹”。当存在两个相互关联的数据块时,它们只盯着一个数据块使劲,另一个数据块里蕴含的丰富信息就这样被无情浪费了。打个比方,这就像是在拼图时,只看着一部分拼图块,对旁边另一堆明显能和它匹配的拼图块视而不见,最终拼出的图案肯定不完整、不准确。
更糟糕的是,这些方法还容易陷入 “协方差牢笼(CoC)” 的困境。在多变量校准场景中,当填补那些相互关联的响应变量缺失值时,如果只依赖块内协方差,就好像给这些变量戴上了 “枷锁”,让它们的预测和填补值被困在一个低维子空间里。这样一来,变量间的真实关系被掩盖,后续分析和预测的可靠性、有效性大打折扣。想象一下,你本来想看清森林的全貌,结果却被一片树叶挡住了视线,还怎么准确判断方向呢?
为了解决这些棘手的问题,来自未知研究机构的研究人员开启了一场科研探索之旅。他们把目光聚焦在如何巧妙利用两个数据块的信息,研发出一种更精准、更可靠的缺失值填补方法。经过不懈努力,他们成功推出了基于偏最小二乘法 2(PLS2)的多重填补法(MIPLS2)。这项研究成果发表在《Analytica Chimica Acta》上,犹如一颗投入平静湖面的石子,在科研领域激起层层涟漪。
研究人员在此次研究中,主要运用了以下几种关键技术方法:
- 偏最小二乘法 2(PLS2)回归:这是 MIPLS2 算法的核心,利用两个数据块间的协方差关系,为缺失值预测和填补提供有力支持。
- 蒙特卡罗(MC)模拟:通过生成多个含人工引入缺失值的数据集,模拟随机和系统性缺失值场景,全面评估 MIPLS2 性能。
- 对比实验:将 MIPLS2 与多种传统填补方法,如多重填补法(MICE)、MiceForest、missMDA、主成分分析多重填补法(MIPCA)等进行对比,直观展现其优势。
下面,让我们详细看看研究的具体结果:
- 填补准确性评估:研究人员使用包含 890 个牛奶样本的数据集进行实验。其中,傅里叶变换红外(FT - IR)光谱数据作为稳健完整的 X 块,17 种通过气相色谱 - 质谱法(GC - MS)测量的脂肪酸(FAs)数据模拟存在缺失值的不稳定 Y 块。直接对比填补后的缺失值与参考值,结果令人惊喜,MIPLS2 在随机缺失(Case Yrand)和系统性缺失(Case Ysyst)两种场景下,都展现出更低的填补误差,远超其他传统方法。这表明 MIPLS2 能更精准地还原缺失值,就像拼图高手能准确找到每一块拼图的位置。
- 对预测模型的影响评估:利用包含填补值的 Y 块校准 PLS1 和 PLS2 回归模型,然后对测试集样本进行预测,并与参考值对比。结果发现,与其他竞争方法相比,MIPLS2 对预测输出的正向影响更小,这意味着它引入的不确定性更低,能为预测模型提供更可靠的数据支持,让预测结果更接近真实情况。
- 对 “协方差牢笼(CoC)” 影响评估:深入分析各填补方法对响应变量间 CoC 的影响,MIPLS2 凭借引入外部 X 块的协方差信息,成功打破 CoC 的束缚,降低变量间的相互依赖,有效避免了传统方法中因 CoC 导致的问题,使后续分析和预测更加稳健、可靠。
综合研究结论和讨论部分,MIPLS2 无疑是缺失值填补领域的一颗璀璨新星。它成功克服了传统单块填补技术的诸多局限,无论是面对随机缺失还是系统性缺失的数据,都能稳定发挥,精准填补缺失值。在实际应用中,它能为科研人员提供更可靠的数据基础,让基于这些数据构建的预测模型更加稳健、准确。这不仅有助于推动生命科学、健康医学等领域的基础研究,还可能在临床诊断、药物研发等实际场景中发挥重要作用,为解决复杂的实际问题提供新的思路和方法,极大地提升了科研和实践的效率与质量,具有不可忽视的重要意义。