基于预训练模型的可操作性警告识别:一项可行性研究
《ACM Transactions on Software Engineering and Methodology》:Pre-trained Model-based Actionable Warning Identification: A Feasibility Study
【字体:
大
中
小
】
时间:2025年11月19日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
本文首次探索预训练模型(PTMs)在警示识别(AWI)中的应用,通过12K+条静态代码分析器的警告数据(涵盖Java/C/C++),对比了PTMs与传统ML方法的性能,分析了数据处理、模型训练和预测环节的影响,揭示了PTMs在AWI中的性能瓶颈及优化方向。
摘要
可操作的警告识别(AWI)在提升静态代码分析器(SCA)的可用性方面发挥着关键作用。目前,基于机器学习(ML)的AWI方法较为常见,这些方法主要通过标记过的警告来训练AWI分类器。然而,由于这些方法直接依赖于有限数量的标记警告来开发分类器,因此其性能仍然受到限制。最近,预训练模型(PTMs)在处理各种与代码相关任务时表现出色,因为它们已经通过数十亿个文本/代码片段进行了训练。尽管如此,PTMs在AWI任务上的性能尚未得到系统性的研究,这导致我们对其优缺点缺乏清晰的认识。在本文中,我们首次探索了将各种PTMs应用于AWI的可行性。通过对12,000多个警告进行广泛评估(这些警告来自四种常用的SCA工具:SpotBugs、Infer、CppCheck和CSA,以及三种典型的编程语言:Java、C和C++),我们(1)比较了基于PTM的AWI方法与最先进的基于ML的AWI方法的性能;(2)分析了典型PTM-based AWI工作流程中三个关键方面(数据预处理、模型训练和模型预测)的影响;(3)找出了PTMs在AWI任务上表现不佳的原因,并据此得出了一系列研究结果。基于这些发现,我们进一步提出了几种提升基于PTM的AWI性能的潜在方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号