理解测试套件规模对测试有效性评估可能产生的混淆效应

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Software Engineering and Methodology》：Understanding the potentially confounding effect of test suite size in test effectiveness evaluation

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Software Engineering and Methodology

编辑推荐：

　　代码覆盖率和突变分数作为测试有效性指标，其与缺陷检测能力的关系受测试集大小影响。通过统计分析和线性回归法消除干扰后，突变分数预测效果最优，代码覆盖率最差。消除干扰后，覆盖率和突变法在测试集优化中成本效益提升，覆盖率优先级排序速度有边际改善。

摘要

背景：代码覆盖率和变异分数是评估测试套件发现实际缺陷能力的关键测试有效性指标。然而，以往的研究在它们与缺陷检测能力之间的相关性方面得出了不一致甚至相互矛盾的结论，尤其是在测试套件规模的影响方面。问题：在测试有效性评估的背景下，测试套件规模可能产生的混淆效应的程度尚不清楚，也没有明确的方法来消除这种混淆效应，以及消除这种效应对测试套件优化性能的影响。目标：我们的目标是深入理解测试套件规模如何影响测试有效性指标与测试套件发现实际缺陷能力之间的真实关系。方法：首先，我们使用统计方法来研究测试套件规模在测试有效性评估背景下的潜在混淆效应程度。之后，我们提出了一种基于线性回归的方法来消除这种潜在的混淆效应。最后，我们通过实证研究探讨了这种消除方法对测试套件优化的影响。结果：基于Defects4J缺陷数据集的实验结果表明：(1) 测试套件规模对测试有效性指标与缺陷检测能力之间的关联存在混淆效应；(2) 提出的基于线性回归的方法可以有效消除这种混淆效应；(3) 消除混淆效应后，变异分数在预测测试套件有效性方面表现出更好的效果，而语句覆盖率则是效果最差的指标。此外，基于覆盖率和基于变异的测试套件优化方法在缺陷检测方面都表现出更高的成本效益，并且基于覆盖率的测试用例优先级排序在缺陷检测速度上也有轻微的提升。结论：在使用测试有效性指标来评估测试套件效果时，消除测试套件规模的影响至关重要。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号