通过多实例学习实现弱监督下的漏洞定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

通过多实例学习实现弱监督下的漏洞定位

《ACM Transactions on Software Engineering and Methodology》：Weakly Supervised Vulnerability Localization via Multiple Instance Learning

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Software Engineering and Methodology

编辑推荐：

　　软件漏洞检测面临效率与成本挑战，传统方法依赖人工检查语句级漏洞。WAVES通过多实例学习将函数级标签转换为语句级伪标签，无需额外标注即可训练模型实现漏洞检测与定位，实验证明其在检测和定位任务上均优于基线方法。

摘要

软件漏洞检测近年来已成为软件安全领域的一个重要问题，吸引了众多研究人员和开发者的关注。以往大多数方法侧重于粗粒度的漏洞检测，例如在函数或文件层面进行检测。然而，开发者仍然需要手动检查大量代码以识别具体的漏洞语句并进行修改，这凸显了漏洞定位的重要性。训练用于漏洞定位的模型通常需要语句级别的真实标签，而标注漏洞语句需要专家知识，这会带来较高的成本。因此，对于一种能够消除语句级别额外标注需求的方法的需求日益增加。为了解决这个问题，我们提出了一种名为WAVES的新方法，该方法基于多实例学习（multi-instance learning）实现了快速监督下的漏洞定位（WAVES），在训练过程中不需要额外的语句级别标签。WAVES能够判断一个函数是否存在漏洞（即漏洞检测），并精确定位漏洞语句（即漏洞定位）。具体来说，该方法借鉴了多实例学习的概念，将函数级别的真实标签转换为各个语句的伪标签，从而消除了对额外语句级别标注的需求。这些伪标签被用来训练函数级别表示向量的分类器。在三个流行的基准数据集上的广泛实验表明，与之前的方法相比，我们的方法在漏洞检测方面取得了可比的性能，在语句级别漏洞定位方面达到了最先进的水平。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号