一种基于多视图图表示的可扩展漏洞检测系统
《ACM Transactions on Software Engineering and Methodology》:A Scalable Vulnerability Detection System with Multi-View Graph Representations
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
深度学习在代码漏洞检测中的应用通过多视角图像转换和CNN模型实现高效准确检测,在Devign、Big-Vul、ReVeal等数据集上超越9种SOTA方法,并比VulDeeLocator快5倍,比Devign快2倍,同时保持与GRACE相当的检测效果。
摘要
深度学习(DL)因其强大的自动特征提取能力,在源代码漏洞检测中得到了广泛应用。为了实现可扩展的漏洞扫描,一些先前的研究尝试将源代码直接视为文本进行处理。然而,这些基于文本的方法由于未能充分利用程序语义,因此无法达到最佳性能。相比之下,其他方法通过将程序语义转化为图表示来提高检测准确性。尽管这些基于图的方法准确度较高,但它们并不具备可扩展性,因为图分析通常耗时较长。
在本文中,我们旨在实现大规模源代码漏洞检测的可扩展性和准确性。受到现有基于深度学习的图像分类技术的启发(这些技术能够准确分析数百万张图像),我们选择使用这些技术来实现目标。具体而言,我们提出了一种创新方法,该方法能够高效地将函数的源代码转换为多视图图像,同时保留来自不同视角的多样化程序信息。基于这种方法,我们开发了一个漏洞检测系统VulCNN,该系统可以利用函数图像和简单的卷积神经网络(CNN)来有效且高效地检测漏洞。我们在三个流行且广泛使用的数据集(即 Devign、Big-Vul和ReVeal数据集)上实现了VulCNN并进行评估。实验结果表明,VulCNN的准确度优于九种最先进的漏洞检测器(即 TokenCNN、VulDeePecker、SySeVR、VulDeeLocator、Devign、EPVD、VulDecgre、UniXcoder和PDBERT)。我们还将VulCNN与三种广泛使用的大型语言模型(即 Llama-2-Instruct、DeepSeek-Coder、Qwen2.5-Coder-Instruct)以及一种基于LLM的检测方法(即 GRACE)进行了比较,实验结果表明,我们提出的方法性能优于大多数漏洞检测方法。在可扩展性方面,VulCNN的速度比VulDeeLocator快约五倍,比Devign快约两倍。此外,VulCNN的漏洞检测效果与最先进的方法GRACE相当,但时间开销降低了31.52%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号