
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于欧氏距离与曼哈顿距离差异和的多准则决策新方法:小数据表分析工具的比较与拓展
【字体: 大 中 小 】 时间:2025年09月21日 来源:Analytica Chimica Acta 6
编辑推荐:
本综述系统介绍了排序差异和(SRD)算法的非排序环境拓展——欧氏距离差异和(DnE)与曼哈顿距离差异和(DnM)两种新型多准则决策(MCDM)工具。通过16个跨学科数据集验证表明,DnE/DnM在保持SRD优势(无需主观权重、通用性强)的同时,具备更优的判别力与聚类模式,为小样本数据(≤8行)提供可靠的随机化检验与方差分析(ANOVA)框架。
SRD算法无需在此详述,其完整流程详见参考文献[1,2,4]。该算法以输入矩阵(nR行×nC列)与参考列向量rC=(rC1, rC2, ... , rCnR)T为基础。若缺乏明确基准,可选用行平均值(或存在异常值时用中位数)、相似性指标/准确率/相关系数的行最大值,或误差项(标准差、均方根误差等)的行最小值构建参考向量。随后对每列数据与参考向量进行逐行比较,计算绝对差异之和即为SRD值。最终通过升序排列SRD值实现方法/模型排序——数值越小表示与基准越接近。
给定nR行×nC列的输入矩阵及参考向量rC=(rC1, rC2, ... , rCnR)T,首先确定扩展矩阵元素的范围[Tmin, Tmax]。定义向量v,其分量vi=max[(rCi–Tmin), (Tmax–rCi)],且满足?vi ∈[Tmin, Tmax]。对第k列向量Ck=(x1k, x2k, ..., xnRk)T,分别计算其与参考向量的欧氏距离差异和(DnE)及曼哈顿距离差异和(DnM):
DnEk = Σi=1nR |(xik - rCi)2 - vi2|
DnMk = Σi=1nR ||xik - rCi| - vi|
通过蒙特卡洛模拟生成随机分布,并基于累积频率确定显著性阈值(如5%)。
斯皮尔曼曾提出多种相关性度量,学界后期将足尺规则定义为一种校正机遇后的一致性指标[3]:R = 1 - 6Σdi2/(n3-n)。但该形式因三大局限未能普及:①无法处理并列排名(部分排序);②归一化效果不佳(范围在-1到1之间波动);③难以获取统计显著性(尤其当n较小时需依赖特制表格)。SRD通过引入参考向量与双重验证(随机化检验+交叉验证)机制,有效突破了这些限制。
排序差异和(SRD)可能是最简洁的多准则决策分析(MCDA)工具——它遵循简约原则,能提供清晰度惊人的排序结果,且输入矩阵中适度存在的并列值不会破坏排序稳定性。
在多准则决策(MCDM)中确定第k个变量的优化方向常令人困扰(值越大越优称为正向优化,反之则为负向)。但SRD巧妙化解了这一难题,其"防呆"设计体现在无需预先设定方向性判断:用户只需将所有待比较对象(方法、模型、变量等)置于输入矩阵的列中,并指定参考向量(可来自先验知识或数据推导),算法会自动识别最优方向。这种特性使SRD在交叉学科研究中展现出独特优势,尤其在分析化学、药物设计、食品分类等领域已获得733篇文献应用验证(Scopus数据截至2025年8月)。
生物通微信公众号
知名企业招聘