Fed-OLF:一种用于在隐私保护条件下进行不平衡软件缺陷预测的联邦过采样学习框架
《IEEE Transactions on Reliability》:Fed-OLF: Federated Oversampling Learning Framework for Imbalanced Software Defect Prediction Under Privacy Protection
【字体:
大
中
小
】
时间:2025年11月20日
来源:IEEE Transactions on Reliability 5.7
编辑推荐:
软件缺陷预测技术基于机器学习建立模型以预判潜在缺陷,但面临数据隐私与样本不平衡问题。本文提出联邦学习框架Fed-OLF,通过TabDiT方法扩展本地不平衡数据并采用信息熵聚合策略优化参数,实验表明其F1、G-mean和AUC指标优于基线方法。
摘要:
软件缺陷预测技术可以通过在软件产品实际使用之前建立预测模型来发现潜在的错误或隐藏的缺陷,从而减少后续问题并提高软件的质量和安全性。然而,构建预测模型需要足够的软件缺陷数据集支持,尤其是缺陷样本。由于涉及来自不同组织或企业的机密信息,软件缺陷数据无法被共享和有效利用。因此,为了实现多方共享的软件缺陷预测模型的协同训练,同时保持数据在各组织内部的本地性,我们提出了一个联邦学习框架来解决这一问题。同时,软件缺陷数据集中的无缺陷样本和有缺陷样本通常是不平衡的,这会严重影响模型的预测性能。为此,本研究设计了一种新颖的联邦过采样学习框架Fed-OLF。首先,在Fed-OLF中提出了基于深度生成模型的TabDiT方法,以在保护一定隐私程度的同时扩展和重新平衡每个客户端的本地不平衡软件缺陷数据集。其次,提出了基于局部信息熵的参数聚合策略,进一步优化了全局共享模型的参数聚合效果,从而提高了模型性能。我们在PROMISE数据集和NASA Promise仓库上进行了广泛的实验,实验结果表明,与先进的基线方法相比,所提出的Fed-OLF在F1分数、G均值和AUC指标上表现出更好的预测性能。此外,我们验证了Fed-OLF中的TabDiT方法和基于局部信息熵的参数聚合策略都是有效的,它们的结合可以更有效地提升模型性能...
引言
软件缺陷预测技术基于机器学习等方法来分析软件数据。通过挖掘和学习软件缺陷数据,构建软件缺陷预测模型以预测软件产品中的潜在缺陷问题[1]、[2]。在现代工业中,软件缺陷预测对于提高软件可靠性和避免软件运行过程中的问题至关重要[3]、[4]。近年来,基于机器学习的各种软件缺陷预测模型吸引了大量研究工作,其中一些已经取得了令人鼓舞的结果[5]、[6]。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号