
-
生物通官微
陪你抓住生命科技
跳动的脉搏
不平衡损失函数在提升深度学习漏洞检测性能中的价值评估与优化策略
【字体: 大 中 小 】 时间:2025年06月17日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对深度学习漏洞检测(DLVD)中类别不平衡导致模型性能下降的问题,研究人员系统评估了九种不平衡损失函数(如LDAM、CB-Focal、LA等)在LineVul和ReVeal模型上的效果。通过四大数据集实验发现,CB-Focal损失在极端不平衡数据中综合表现最优,LA损失则适用于近平衡数据集。该研究为DLVD领域提供了损失函数选择的理论依据和实践指导。
在数字化时代,软件漏洞如同潜伏的"数字病原体",一旦爆发可能引发类似2024年Change Healthcare遭受的勒索攻击,导致医疗系统瘫痪和敏感数据泄露。尽管深度学习漏洞检测(DLVD)技术展现出强大潜力,但实际应用中存在一个致命弱点:训练数据中非漏洞代码片段占比常超90%,这种极端类别不平衡导致模型对漏洞样本的识别率(Recall)骤降。当前研究虽尝试用加权交叉熵(WCE)等损失函数缓解问题,但缺乏系统性比较,结论往往受限于单一模型或数据集。
针对这一瓶颈,中国的研究团队开展了首项大规模实证研究。他们梳理了2017-2024年间119篇DLVD文献,发现仅13篇采用不平衡损失函数,且89.1%的研究完全忽视该问题。团队选取LineVul(基于代码行分析)和ReVeal(基于图神经网络)两种代表性模型,在Devign、Reveal等四个数据集上对比九种损失函数(含LDAM、CB-Focal等创新方法),采用Scott-Knott ESD检验等六种评估指标。关键技术包括:1) 文献计量分析确定研究空白;2) 多模型多数据集交叉验证;3) LIT工具进行可解释性分析;4) t-SNE可视化特征空间分布。
研究结果显示:
结论与意义:该研究首次建立DLVD领域损失函数选择的科学框架,证实不平衡损失函数通过调整样本权重或分类边界,能有效缓解类别不平衡问题。实践建议包括:1) 优先选用LineVul+CB-Focal组合;2) 根据任务目标动态选择损失函数(如安全审计需高Recall时选LA损失);3) 开发自适应损失函数调参工具。论文发表于《Expert Systems with Applications》,为构建更鲁棒的智能漏洞检测系统提供方法论支撑,其"损失函数-数据特征-模型架构"协同优化思路也可拓展至其他不平衡分类场景。
生物通微信公众号
知名企业招聘