基于重采样和矩量法的多分类数据簇内相关系数估计及其R包实现

【字体: 时间:2025年07月22日 来源:Computer Methods and Programs in Biomedicine Update CS5.9

编辑推荐:

  本研究针对多分类数据簇内相关性评估的难题,开发了基于重采样和矩量法(MoM)的簇内相关系数(ICC)估计方法,并推出R包iccmult。通过模拟研究验证了两种方法在不同事件率、簇数量和簇规模下的性能,发现MoM在小样本场景更具优势。该研究为簇随机试验设计提供了重要工具,填补了多分类结局ICC估计的方法学空白。

  

在精准医学时代,簇随机试验(Cluster Randomized Trials, CRT)因其能评估真实临床环境下的干预效果而日益普及。这类研究设计面临一个关键挑战:同一簇内的个体往往存在相关性,这种簇内相关性会显著影响样本量计算和统计功效。虽然目前已有针对连续型、二分类和生存数据的簇内相关系数(Intracluster Correlation Coefficient, ICC)估计方法,但对于多分类结局(如Likert量表、有序分类等)的ICC估计仍缺乏可靠工具。

研究人员开发了两种创新方法来解决这一方法学缺口:基于U统计量的重采样估计法和源自群体遗传学的矩量法(Method of Moments, MoM)估计器。通过系统的模拟研究,团队比较了两种方法在不同事件率、簇数量(15-75个)和簇规模(15-75人/簇)下的表现。结果显示,MoM估计器在小样本场景(如15个簇、15人/簇)展现出更优的精确性,其95%置信区间宽度比重采样方法平均窄30%。而两种方法在大样本条件下(如75个簇、75人/簇)表现相当,ICC估计偏差均小于6%。

研究采用了蒙特卡洛模拟技术,通过等相关数据生成算法创建具有预设ICC值(0.05-0.20)的多分类数据集。关键技术包括:1) 基于Biswas算法的簇相关数据生成;2) 构建三类U统计量(边际均值Uq、簇内配对TW和簇间配对TB)的重采样估计框架;3) 移植Weir-Hill的F统计量θ估计器用于临床研究场景;4) 开发包含rccat()数据生成和iccmulti()估计功能的R软件包。

在"重采样估计"部分,研究通过构建多类别响应变量的三阶段U统计量,实现了Q分类数据的ICC估计。公式(3)展示的核心估计器ρ?R将各分类的配对差异标准化后取平均,这种方法能有效处理"q vs 非q"的二分转换。模拟显示,对于三分类结局(0.2,0.3,0.5),当真实ICC=0.15时,重采样估计在50人/簇条件下的偏差仅为0.001。

"矩量法估计"部分创新性地将群体遗传学的Fst统计量重新参数化为临床ICC估计器。通过定义簇水平均数π?iq和总体均数π?q,构建了基于均方(MSBq, MSWq)的估计方程。公式显示,MoM估计量ρ?M通过合并各分类的均方差异,实现了更高效的ICC估计。在四分类数据(0.15,0.20,0.25,0.40)模拟中,MoM的95%CI覆盖率在25个簇时即达到99%,比重采样方法早达到稳定状态。

R包iccmult的实现解决了方法学向实践转化的最后一公里问题。该包提供:1) rccat()函数支持预设ICC的多分类数据生成;2) iccmulti()函数实现双估计方法;3) 自动处理置信限越界问题。特别值得注意的是,在csvar=10%的簇规模变异条件下,两种方法仍保持稳健性能,这对实际研究中常见的非平衡设计尤为重要。

这项研究的意义在于:首先,首次系统评估了MoM估计器在临床研究中的适用性,证实其在小样本优势;其次,完善了多分类结局ICC估计的方法学体系;最后,通过开源软件降低了方法使用门槛。研究结果对教育评估、公共卫生干预等涉及多分类结局的簇随机试验具有直接指导价值。未来研究可进一步探索这些方法在多层次随机设计和交叉设计中的扩展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号