
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Wasserstein距离的分布数据二元分类方法研究及其在胶质母细胞瘤影像分析中的应用
【字体: 大 中 小 】 时间:2025年08月24日 来源:Statistical Analysis and Data Mining: An ASA Data Science Journal
编辑推荐:
这篇研究论文提出了一种创新的非线性空间分布数据分类方法,采用Wasserstein距离(WD)和Fréchet均值构建分类模型,通过切空间对数映射和平行传输算子(parallel transport operator)有效整合组间差异信息。该方法在胶质母细胞瘤(GBM)像素强度数据分类中展现出优越性能,为生物医学影像分析提供了新的数学框架。
ABSTRACT
研究团队开发了一种针对非线性空间随机对象的二元分类方法。与传统基于欧氏距离的分类方法不同,该方法利用Wasserstein距离量化概率密度函数间的差异,通过局部切空间测量实现分布数据的有效分类。通过Fréchet均值和方差捕捉分布的中心与离散特征,结合对数映射和平行传输算子处理不同切空间的数据转换,在多种模拟场景和GBM实际数据中均表现出优越的分类性能。
1 Introduction
近年来,随着功能数据(functional data)在生物医学等领域的广泛应用,传统线性分类方法面临挑战。研究指出无限维空间中随机函数的概率密度不存在,使得直接构建决策边界困难。现有方法如k近邻、逻辑回归等在处理具有内在非线性条件的分布数据时存在局限。特别当数据满足积分等于1的单纯形空间条件时,传统线性距离度量失效。
研究聚焦概率密度函数构成的数据空间,采用Wasserstein距离作为差异度量。前人工作已建立Fréchet均值和方差的概念,但在分布数据分类领域仍存空白。本研究旨在开发基于Wasserstein几何的判别方法,通过双切空间转换解决组间比较难题。
2 Methodology
2.1 Preliminaries
定义概率测度空间W2(Ω),通过最优传输问题诱导Wasserstein距离。对于随机密度函数,Fréchet均值和方差分别定义为距离最小化和方差最小化问题。引入张量积运算和对数映射,将Wasserstein空间转换到切空间,建立协方差算子与核函数的关联。
2.2 Classification Model
创新性地利用负对数映射将一组Fréchet均值转换到另一组的切空间,构建差异信号函数Δ。通过平行传输算子将两组协方差算子统一到同一空间,构建合并协方差算子Σpool。基于特征分解和信号噪声比构建分类函数,最终形成分类决策规则δn。
2.3 Estimation
采用修正核密度估计器处理边界偏差,通过经验累积分布函数估计Fréchet均值。计算经验协方差算子后,通过十折交叉验证选择最优特征成分数量,避免过拟合。新观测值的分类通过计算投影分数实现。
3 Asymptotic Study
在六项正则条件下,证明分类器的错误率收敛性质。定理1显示在高信噪比条件下,误分类概率趋近于零;定理2给出经验分类器与总体分类器的收敛速率,为方法提供理论保障。
4 Simulation Study
设计三种模拟场景:多项式函数、非线性函数和混合函数生成分布数据。结果显示,在样本量n=150、每组观测数m=50时,提出的δn方法TER(测试错误率)最低(0.04±0.02),显著优于传统方法δnaive(0.23±0.03)和δpc(0.30±0.11)。
5 Analysis of Real Data
应用GBM肿瘤异质性数据(64例患者),通过核密度估计获得像素强度分布。可视化显示女性组分布具有更高上分位数和更宽变异性。采用80%累积信噪比标准选择k=3个特征成分,分类准确率达75.8%,显著优于基准方法。
6 Discussion
该方法创新性地将Wasserstein几何与分类模型结合,但存在多变量扩展、带宽选择等挑战。未来研究可探索不平衡样本处理和多分类场景拓展,为生物医学影像分析提供更强大工具。
生物通微信公众号
知名企业招聘