
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于分位数阈值函数与潜高斯DAG模型的运动损伤因果推断新方法
【字体: 大 中 小 】 时间:2025年09月11日 来源:Frontiers in Public Health 3.4
编辑推荐:
本文提出一种结合分位数阈值函数(QTF)与潜高斯有向无环图(DAG)模型的因果推断方法,用于分析运动损伤的成因机制。研究通过将连续变量转化为有序变量,构建潜变量DAG结构,并计算有序因果效应(OCE)。实证结果显示,该方法能有效识别训练负荷(如Kmsprinting)、感知恢复(Perceivedrecovery)与损伤风险间的因果路径,为优化训练方案和制定损伤预防策略提供重要理论依据与方法学支持。
引言
运动科学研究的核心在于因果关系的探索,其旨在通过揭示身体活动的内在机制以优化训练策略与运动表现。运动损伤的因果推断为制定有效的预防措施提供了关键科学依据。近年来,有向无环图(Directed Acyclic Graph, DAG)模型已成为研究运动损伤中因果关系的不可或缺的工具。尽管已有研究提倡在损伤预防中应用因果模型,如van Mechelen的预防序列和Finch的TRIPP框架,但实际应用仍较为有限。随机对照试验(RCT)虽被视为因果推断的金标准,但在运动科学尤其是精英体育中实施难度较大。因此,观察性研究成为推断因果关系的主要手段,但其易受选择偏倚的影响。
研究方法
本研究提出一种名为分位数阈值函数(Quantile Threshold Function, QTF)的新方法,用于将连续变量转化为有序变量(Ordinal Variables),并在转化过程中保持数据的有序性和分类一致性。QTF基于核密度估计(Kernel Density Estimation)拟合变量的概率密度函数,并依据分位数定义分类阈值。具体而言,随机变量X通过函数g(x)被划分为低、中、高三个等级,分别赋值为0、1、2。分类后的数据通过方差分析(ANOVA)验证组间差异的显著性,确保分类的有效性。
在数据转换的基础上,本研究采用Luo等人提出的有序结构期望最大化(Ordinal Structural Expectation-Maximization, OSEM)算法构建潜高斯DAG模型。该模型假设每个有序变量均由一个潜高斯变量通过阈值离散化生成,且这些潜变量联合服从DAG所定义的结构。通过OSEM算法,可以从有序数据中学习贝叶斯网络的结构和参数,进而为后续的因果效应分析提供支持。
背景
高斯DAG模型是概率图模型的一种,其通过有向无环图表示变量间的条件独立关系。在高斯假设下,联合概率分布可分解为局部条件概率的乘积,具体由模型结构G和参数θ决定。Pearl提出的do-operator为因果干预提供了理论框架,允许研究者量化变量间的因果效应。对于有序变量,其因果效应(Ordinal Causal Effect, OCE)可通过比较不同干预水平下结果变量的分布变化来定义。
材料与方法
QTF的具体定义如下:对于随机变量X,其概率密度函数为f(x),分布函数为F(x),若存在非负实值函数g(x),使得当x≤Qi时g(x)=0,Qi<>i+1时g(x)=1,x>Qi+1时g(x)=2,其中Qi满足F(Qi)=i/4,i∈{1,2},则g(x)称为分位数阈值函数。通过QTF转换后的数据,其组间差异通过ANOVA进行检验,若p<0.05则拒绝原假设,认为分类有效。
潜高斯DAG模型将有序变量Xk视为潜高斯变量Yk的离散化结果,其生成规则由阈值αk决定。模型联合概率分布由潜变量的条件概率和离散化概率共同构成。OSEM算法结合多项probit模型和结构EM算法,通过迭代优化学习网络结构和参数。
因果效应的计算基于Scauda等人提出的方法,通过干预潜变量Yi来估计其对结果变量Yo的影响,进而推导有序变量Xi对Xo的OCE。具体地,OCE定义为在两种不同干预水平下,结果变量属于某一等级的概率差。
结果
本研究使用Kaggle上公开的运动员训练日志数据集,包含74名运动员在2012-2019年间的42,766条数据。通过QTF将连续变量转换为有序变量后,ANOVA结果显示所有变量在三个等级间的差异均显著(p<0.05),表明分类有效。例如,变量2(总训练量)在低、中、高三个等级的平均值分别为3.186、12.882和20.016,标准差逐渐增大,F值高达52,000以上。
通过OSEM算法学习得到的CPDAG(Completed Partially Directed Acyclic Graph)揭示了变量间的因果关系。损伤(Injury)的直接影响因素包括冲刺跑距离(Kmsprinting)、感知恢复(Perceivedrecovery)和感知训练成功(Perceivedtrainingsuccess)。间接影响路径有两条:一是总跑量(Totalkm)通过训练次数(Sessions)影响感知恢复,进而影响损伤风险;二是力量训练(Strengthtraining)通过感知训练成功影响损伤风险。
对冲刺跑距离与损伤间的OCE分析显示,当干预水平从低到中(1→2)或低到高(1→3)时,损伤概率显著增加,尤其是从未受伤状态(Injury=1)到受伤状态(Injury=2)的转变。而当干预水平从中到高(2→3)时,OCE接近零,表明运动员在适应中等强度后,进一步增加强度对损伤风险的影响较小。类似地,力量训练对损伤的OCE波动较大,提示需严格控制训练强度与进度。
讨论
本研究提出的QTF与潜高斯DAG模型相结合的方法,为运动损伤的因果推断提供了新的方法论支持。通过将连续变量转化为有序变量,并利用潜变量模型捕捉变量间的因果关系,该方法能够有效识别训练负荷、恢复状态与损伤风险间的复杂关系。实证结果强调了冲刺跑距离和力量训练对损伤风险的直接影响,以及通过感知指标间接影响的重要性。
在实际应用中,教练员和运动员可通过监控训练负荷和感知恢复状态,及时调整训练计划,以降低损伤风险。例如,控制冲刺跑距离的突然增加,避免从低强度直接过渡到高强度训练;合理安排力量训练的进度,注重基础力量建设和动作稳定性。同时,感知恢复和感知训练成功可作为低成本实时指标,用于优化训练方案。
研究的局限性在于仅分析了单日数据,未考虑时间动态变化。未来工作将扩展至周度数据集,并采用时间序列方法捕捉 temporal dynamics。此外,当前研究仅关注单干预效应,未来可探索多变量联合干预的因果效应,以及在混合数据(连续与有序变量并存)下的贝叶斯网络学习框架。
总之,本研究不仅推动了运动损伤因果推断的方法学发展,还为训练优化和损伤预防提供了实践指导,有助于实现运动表现与风险控制的平衡。
生物通微信公众号
知名企业招聘