基于主动学习(Active Learning)与监督机器学习的安卓恶意软件检测混合模型研究

【字体: 时间:2025年06月13日 来源:Machine Learning with Applications

编辑推荐:

  本研究针对安卓平台恶意软件检测效率低、传统静态分析易规避等问题,提出融合主动学习(AL)、监督机器学习(ML)和威胁情报工具(TITs)的混合检测模型。通过特征提取(Androguard工具)和置信度采样(βL (t))策略,在VirusShare数据集上实现训练/测试准确率92.36%/85.9%,损失函数22.5%/33.2%,显著优于SVM、决策树(DT)等传统方法。该研究为动态环境下的恶意流量识别提供了可解释性强、迭代优化的新范式。

  

随着智能手机渗透率突破70亿台,安卓系统因其开源特性成为恶意软件重灾区。传统检测方法如Google Bouncer短时扫描易被规避,权限模型因用户随意授权失效,静态分析对新型变种木马(RAT)、银行木马(Banking Trojan)的识别率不足50%。更棘手的是,恶意软件通过动态端口、流量加密等手段持续进化,使得基于端口识别和深度包检测(DPI)的技术逐渐失效。

为应对这一挑战,研究人员构建了融合主动学习(Active Learning, AL)、监督机器学习(Supervised ML)和威胁情报工具(Threat Intelligence Tools, TITs)的混合检测框架。该模型通过Androguard工具逆向分析APK文件,提取权限和API调用等14项关键特征,采用随机森林分类器(Random Forest Classifier, RFC)结合三种聚合策略——最大置信度(βmax
(t))、求和(βs
(t))和平均(βa
(t)),在VirusShare提供的138,047个样本(含96,724个恶意样本)上进行迭代训练。

关键技术包括:1) 基于最小置信度(Least Confidence, βL
(t)=1-max∏f(yi
|t))的不确定性采样;2) 通过TITs实时验证低置信度样本;3) 使用ExtraTreesClassifier进行特征选择;4) 采用SMOTE算法处理数据不平衡问题。

研究结果显示:

  1. 模型性能:在80,000训练样本中,最大置信度聚合策略表现最优,测试集准确率达90.58%,显著高于随机采样的88.45%。深度学习方法中RNN以89.55%准确率领先,但AL-RFC组合以92.36%创最高纪录。
  2. 混淆矩阵分析:真阳性率(TPR)达90.4%,假发现率(FDR)控制在24%,F1分数79%,证明模型对多态恶意代码的鲁棒性。
  3. 跨方法对比:相较于SVM(63.7%)、DT(75.1%)等传统方法,以及CNN(86.94%)、LSTM(92.7%)等深度学习模型,AL-RFC在BIG 2015等多个基准数据集上保持5-15%的优势。
  4. 计算效率:在Intel Core i3-550环境下,每轮主动学习迭代仅需3个epoch即可收敛,较传统ML节省67%训练时间。

讨论指出,该研究的突破性在于:1) 首次将TITs嵌入主动学习循环,通过实时威胁情报修正决策边界;2) 提出βmax
(t)聚合策略,有效处理多检测点流量;3) 开源代码库为工业界部署提供便利。局限性在于样本时间跨度有限,未来需结合云沙箱技术应对新型勒索软件(Ransomware)。这项发表于《Machine Learning with Applications》的成果,为移动安全领域提供了兼顾效率与精度的动态防御新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号