
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多元组合数据的条件依赖性度量:基于最优传输理论与最近邻分析的新方法
【字体: 大 中 小 】 时间:2025年08月21日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种创新的组合条件依赖系数(CoCDC),通过最优传输理论构建组合数据的多元秩(Challenge C2),并开发了适用于多元组合预测器的距离度量方法(Challenge C1)。该研究突破了现有方法在量化非线性条件依赖性和变量选择(FOCCD算法)方面的局限,为经济学、地质统计学和微生物组学等领域的组合数据分析(CoDA)提供了首个统一框架。
Highlight
本研究通过四大创新点推动组合数据分析(CoDA)发展:(1) 首创针对组合预测器的最近邻分析方法,建立标量响应与多元组合预测器的条件依赖系数;(2) 基于最优运输理论提出具有严格定义的组合数据多元秩;(3) 扩展CoCDC至组合响应变量的预测场景;(4) 开发基于CoCDC的特征排序算法(FOCCD),在非单调关联和联合依赖性场景中展现卓越变量选择性能。
Conditional dependence and variable selection for compositional data
组合数据的条件依赖与变量选择
3.1节定义的条件依赖系数可退化为无条件相关系数。3.2节给出标量响应-组合预测器的首类CoCDC计算方法。基于3.3节提出的组合秩定义,3.4节推出响应/预测器均为组合数据的第二类CoCDC。3.5节进一步展示FOCCD算法如何通过CoCDC实现模型无关的变量选择。
Simulation
模拟验证
通过4.1-4.2节的线性/非线性边际依赖和联合依赖案例验证CoCDC性能。特别地,在组合响应变量的回归模型中(如微生物丰度预测),CoCDC展现出对复杂关联模式的捕捉能力,其性能超越传统线性/单调相关性测量方法[23,43]。4.3节证实FOCCD在含非单调边际关联的预测场景中,变量选择准确率显著优于现有方法。
Real data
实际数据应用
两个案例验证CoCDC的实用性:(1) 宏观经济领域的实值-单纯形回归(城镇居民可支配收入预测);(2) 商品推荐中的单纯形-单纯形预测。FOCCD筛选的预测变量不仅提升模型精度,还产生更简约可解释的模型结构——这在微生物组标志物筛选中体现尤为突出。
Conclusions and future work
结论与展望
本文提出的CoCDC首次实现组合数据条件依赖的统一量化,其衍生的FOCCD算法突破了传统变量选择方法对标量响应的限制。未来研究将探索该框架在微生物组跨组学分析中的应用,并开发更高效的最优运输秩计算算法。
生物通微信公众号
知名企业招聘