
-
生物通官微
陪你抓住生命科技
跳动的脉搏
不平衡集成技术在软件缺陷预测中的价值
《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》:The Value of Imbalance Ensemble Techniques on Software Defect Prediction
【字体: 大 中 小 】 时间:2025年10月30日 来源:ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9
编辑推荐:
软件缺陷预测通过机器学习识别高缺陷风险模块,但数据类不平衡(正常远多于缺陷)严重影响效果。研究系统对比了38个数据集的IDRB(数据重平衡)与IEL(不平衡集成学习)方法,发现IEL在严重不平衡数据中表现更优,IDRB(如SMOTE、ROSE)在低不平衡时更具竞争力,但未确定最优IEL技术组合,建议选择高效准确的方法。
软件缺陷预测(SDP)在确保软件质量方面发挥着关键作用,它通过识别容易出现缺陷或错误的高风险组件来实现这一目标。机器学习分类方法已被广泛用于缺陷预测;然而,这些方法的有效性受到训练数据中类别不平衡的显著影响,即无缺陷模块的数量远远超过有缺陷的模块。为了解决这个问题,提出了多种技术,包括数据重新平衡(IDRB)方法和不平衡集成学习(IEL)方法。虽然之前的研究已经探讨了IDRB技术,但IEL的相对有效性尚未得到充分研究。此外,目前还没有确凿的证据表明IEL在各种实验设置中的表现是否优于IDRB。本研究通过对来自不同领域的38个公开可用的缺陷预测数据集进行广泛实验,系统地评估了IEL和IDRB技术的性能。评估涵盖了九种基础学习器、五种数据重新平衡技术和六种不平衡集成方法。结果表明,IEL技术在处理高不平衡比和非常高的不平衡比的数据集时通常优于IDRB方法。此外,结合Bagging和欠采样技术的IEL在严重不平衡的情况下表现出极高的有效性。相反,对于较低的不平衡比,IDRB技术——尤其是SMOTE和ROSE——成为了有竞争力的替代方案。鉴于对于不同学习器而言,尚未确定最佳的IEL技术,建议实践者选择计算效率高且结果准确的方法。
软件缺陷预测(SDP)在确保软件质量方面发挥着关键作用,它通过识别容易出现缺陷或错误的高风险组件来实现这一目标。机器学习分类方法已被广泛用于缺陷预测;然而,这些方法的有效性受到训练数据中类别不平衡的显著影响,即无缺陷模块的数量远远超过有缺陷的模块。为了解决这个问题,提出了多种技术,包括数据重新平衡(IDRB)方法和不平衡集成学习(IEL)方法。虽然之前的研究已经探讨了IDRB技术,但IEL的相对有效性尚未得到充分研究。此外,目前还没有确凿的证据表明IEL在各种实验设置中的表现是否优于IDRB。本研究通过对来自不同领域的38个公开可用的缺陷预测数据集进行广泛实验,系统地评估了IEL和IDRB技术的性能。评估涵盖了九种基础学习器、五种数据重新平衡技术和六种不平衡集成方法。结果表明,IEL技术在处理高不平衡比和非常高的不平衡比的数据集时通常优于IDRB方法。此外,结合Bagging和欠采样技术的IEL在严重不平衡的情况下表现出极高的有效性。相反,对于较低的不平衡比,IDRB技术——尤其是SMOTE和ROSE——成为了有竞争力的替代方案。鉴于对于不同学习器而言,尚未确定最佳的IEL技术,建议实践者选择计算效率高且结果准确的方法。
生物通微信公众号
知名企业招聘