使用Dropout正则化深度学习及独特匹配指标进行跨项目缺陷预测

《ACM Transactions on Management Information Systems》:Cross Project Defect Prediction using Dropout Regularized Deep Learning and Unique Matched Metrics

【字体: 时间:2025年11月07日 来源:ACM Transactions on Management Information Systems

编辑推荐:

  本文提出了一种结合跨项目数据预处理(USMM)和Dropout正则化深度学习模型(DRDL)的软件缺陷预测方法。通过KS检验和匈牙利算法选择源与目标项目的匹配指标,解决数据分布不匹配问题。实验在34个软件缺陷数据集上验证,结果显示DRDL-USMM模型相比现有方法平均提升AUC分数8.5%,有效减少过拟合问题,并显著改善准确率、召回率和F1分数。

  在当今高度数字化的世界中,软件缺陷的代价持续上升,影响着软件行业的稳定性和安全性。无论是数据泄露、软件故障还是网络攻击,这些现象都可能带来严重的后果,如隐私侵犯、生命损失和声誉损害等。因此,软件开发过程中早期识别和预测缺陷成为了软件开发人员和维护团队关注的重点。为了提高软件项目的开发效率和管理质量,研究者们提出了多种软件缺陷预测(Software Defect Prediction, SDP)模型,其中跨项目缺陷预测(Cross-project Defect Prediction, CPDP)模型因其在缺乏历史数据时的实用性而备受关注。然而,由于源数据和目标数据在分布上的差异,CPDP模型在实际应用中常常面临性能下降的问题。为了克服这一挑战,研究者们提出了多种数据预处理方法,如使用Kolmogorov-Smirnov(KS)检验和匈牙利算法进行特征匹配,以及采用深度学习模型结合Dropout正则化技术来缓解过拟合问题。

在软件缺陷预测的研究中,数据分布的不一致性是影响模型性能的关键因素。传统的机器学习模型通常假设训练数据和测试数据来自相似的分布,而这一假设在CPDP场景下并不成立。因此,研究者们探索了不同的方法来解决这一问题,包括特征匹配、数据平衡和模型优化等。其中,跨项目数据预处理方法(Unique Selection of Matched Metrics, USMM)被提出用于选择匹配的特征对,以提高模型的泛化能力。USMM方法利用KS检验来评估源数据和目标数据之间的匹配度,并通过匈牙利算法去除重复的匹配对,从而选择出最优的源数据。这一方法能够有效减少因数据分布差异导致的预测误差。

为了进一步提升CPDP模型的性能,研究者们还引入了深度学习模型,尤其是Dropout正则化的深度学习模型(Dropout Regularized Deep Learning, DRDL)。深度学习模型因其强大的特征学习能力,在图像处理、语音识别等领域取得了显著的成功。然而,在CPDP场景下,由于训练数据和测试数据分布的不一致,这些模型容易出现过拟合现象,从而影响预测效果。为了解决这一问题,研究者们在深度学习模型的输入层和隐藏层中引入了Dropout正则化技术,通过随机丢弃部分神经元来增强模型的泛化能力。这一方法不仅能够减少过拟合,还能使模型在训练过程中更关注数据的全局特征,从而提高预测的准确性和稳定性。

实验结果表明,USMM方法与DRDL模型的结合(即DRDL-USMM模型)在多个数据集上均表现出优于传统方法的预测性能。具体而言,DRDL-USMM模型在CPDP场景下的预测准确率提高了3.3%到8.5%。这一提升主要归功于USMM方法对特征匹配的优化和DRDL模型对过拟合问题的处理。此外,研究还探讨了SMOTE数据平衡方法对DRDL-USMM模型的影响,结果显示使用SMOTE方法能够显著提升模型的性能。

研究还通过非参数统计检验,如Friedman检验和Wilcoxon符号秩检验,验证了所提出方法的有效性。这些检验结果显示,DRDL-USMM模型在多个数据集上的表现显著优于其他传统方法和现有模型。因此,可以得出结论,USMM方法和DRDL模型的结合能够有效提升CPDP模型的预测性能。

研究的局限性在于,USMM方法主要依赖于匹配的特征对,这可能限制了其在某些数据集上的应用效果。此外,尽管Dropout正则化技术能够缓解过拟合问题,但其最佳参数设置仍需在不同数据集上进行实验验证。未来的研究可以进一步优化特征匹配算法,探索更有效的数据平衡方法,并验证所提出方法在其他领域的适用性,如健康科学和金融数据分析等。

综上所述,跨项目软件缺陷预测模型在实际应用中具有重要的价值,但其性能受数据分布差异和过拟合问题的影响。通过引入USMM方法和DRDL模型,可以有效解决这些问题,提高预测的准确性和稳定性。这一研究为软件缺陷预测领域提供了新的思路和方法,有助于提升软件开发和维护的效率,降低项目风险和成本。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号