班级噪声处理对基于机器学习的方法在建筑成果和代码变更请求预测方面的有效性影响
《ACM Transactions on Software Engineering and Methodology》:The Impact of Class Noise-handling on the Effectiveness of Machine Learning-based Methods for Build Outcome and Code Change Request Predictions
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
机器学习优化构建和代码审查流程需减少噪声干扰,比较MF、CF、DB和CleanLab的去噪效果。MF使构建预测F1-score提升15%,MCC达0.58;负面代码审查F1-score提升36%。DB在代码评论中有效,CleanLab保留复杂代码结构。超参数调优可增强CleanLab效果,但不如去除噪声直接。研究证实去除噪声是提升预测性能的关键。
摘要
在现代软件工程中,基于机器学习的方法常被用来优化构建过程和代码审查流程,以加速向最终用户交付功能。这些方法利用大量的历史代码变更数据来训练模型,以预测和防止可能延迟代码集整合的问题。本文的目标是通过减少噪声对模型预测性能的影响来改进这些方法。在本文中,我们研究了几种噪声处理技术对提升机器学习模型在构建结果预测和负面代码审查预测任务中的预测能力的影响。我们使用110个Java开源项目的数据进行了一系列计算实验,评估了两种基于移除的统计技术(多数过滤器(MF)和共识过滤器(CF)以及两种校正技术(基于领域知识的(DB)和CleanLab)的有效性。实验结果表明,基于移除的技术显著提高了模型在构建结果预测和负面代码审查预测方面的性能。对于构建结果预测,应用MF后F1分数从82%提升到了97%,匹配度(MCC)从0.13提升到了0.58。在负面代码审查预测中,MF使F1分数从17%提升到了53%,匹配度从-0.03提升到了0.57。DB技术在代码审查评论方面表现较为有效,但在构建结果预测方面的效果较差。CleanLab采用了一种更为保守的噪声检测方法,保留了其他技术认为具有噪声的复杂代码结构。虽然应用CleanLab可以得到更一致的预测结果,但其对模型预测性能的整体影响相对较小。此外,我们的研究还发现,超参数调整无论是单独应用还是与CleanLab结合使用,都能提升模型性能。然而,这些改进效果并未超过仅使用基于移除的技术所取得的成果。我们得出结论:为了有效预测构建结果和负面代码审查评论,有必要将基于移除的技术应用于代码变更的训练数据中。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号