编辑推荐:
本文首次对运动与锻炼科学领域(SCImago Q1期刊2016-2021年文献)开展大规模复制研究,通过分层随机抽样选取25项研究进行严格复制验证。结果显示仅28%研究满足统计显著性(p<0.05)、效应方向一致及效应量兼容性(Z检验p>0.05)三重标准,且复制效应量中位数较原始值降低75%。研究揭示了该领域存在的发表偏倚、小样本效应、统计报告不规范等系统性隐患,为改进NHST(零假设显著性检验)应用、提升数据透明度(如原始数据共享率仅24%)提供实证依据。
背景
运动与锻炼科学领域长期缺乏对研究可重复性的系统评估,尽管学界对其科学实践存在普遍担忧。该领域与心理学等学科类似,面临低统计功效、选择性报告和p值操纵(p-hacking)等问题。本研究首次通过预注册、分层随机抽样和多标准验证流程,对顶级期刊发表的25项研究进行复制,填补了该领域实证空白。
方法
研究采用三阶段标准化流程:
- 研究筛选:从9385篇文献中筛选587项符合标准的研究(实验/准实验设计,含显著主效应),最终通过设备/专业匹配随机分配25项;
- 复制执行:招募189名合作者,使用BUCSS包校正发表偏倚后计算样本量(目标功效≥95%),最终复制样本量均值n=33(原始研究n=17);
- 评估标准:采用三重验证——统计显著性(原分析如t检验/ANOVA)、效应方向一致性和效应量兼容性(Z检验比较Cohen's dz
/ds
或偏η2
)。
关键发现
- 效应量萎缩:88%复制研究的效应量小于原始值,中位数降低75%(如偏η2
从0.26降至0.09);
- 统计兼容性:仅36%研究的原始与复制效应量通过Z检验(p>0.05);
- 透明性缺陷:仅48%原始研究报告检验统计量,68%报告效应量,16%提供置信区间;
- 数据共享障碍:联系156名原作者仅14%提供原始数据,29项完成复制中仅7项获数据支持。
典型案例
- 成功复制:某运动心理学研究同时满足p<0.05、Cohen's dz
=1.2→1.1(Z检验p=0.12);
- 典型失败:某生理学研究发现原始偏η2
=0.31在复制中降至0.04(Z检验p=0.003);
- 方法学争议:16%原始研究误标ANOVA类型(如将混合方差分析报为重复测量)。
讨论
- 小样本陷阱:原始研究平均n=17导致效应量高估,与心理学复制项目(效应量减半)相比,本领域膨胀更严重;
- 文化因素:调查显示78%研究者认为存在可重复性危机,但职业晋升压力促使追求"显著性"而非科学严谨性;
- 统计误用:82%未声明假设的研究仍使用NHST,仅12%进行先验功效分析,加剧假阳性风险。
改进建议
- 技术层面:推广TOSTER等效性检验、BUCSS样本量计算工具;
- 文化层面:建立"复制研究"期刊专栏,实施注册报告(Registered Reports)制度;
- 教育层面:强制统计协作(仅12%研究咨询统计学家),开设效应量不确定性课程。
局限与展望
研究受限于:
- 部分原始效应量需保守估算(如根据p值反推最小可能值);
- 复制功效实际可能低于预设95%(样本量翻倍法仅达50%功效);
未来需扩大样本量、跨实验室验证,并探索机器学习辅助异常值检测。
结语
这项开创性工作揭示了运动科学领域效应量的高度不确定性和方法论脆弱性。正如Popper所言,无法复制的"发现"不构成科学事实。研究呼吁从"显著性崇拜"转向证据累积范式,通过开放科学实践重建领域公信力。