
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于主动学习(Active Learning)与监督机器学习的安卓恶意软件检测混合模型研究
【字体: 大 中 小 】 时间:2025年06月13日 来源:Machine Learning with Applications
编辑推荐:
本研究针对安卓平台恶意软件检测效率低、传统静态分析易规避等问题,提出融合主动学习(AL)、监督机器学习(ML)和威胁情报工具(TITs)的混合检测模型。通过特征提取(Androguard工具)和置信度采样(βL (t))策略,在VirusShare数据集上实现训练/测试准确率92.36%/85.9%,损失函数22.5%/33.2%,显著优于SVM、决策树(DT)等传统方法。该研究为动态环境下的恶意流量识别提供了可解释性强、迭代优化的新范式。
随着智能手机渗透率突破70亿台,安卓系统因其开源特性成为恶意软件重灾区。传统检测方法如Google Bouncer短时扫描易被规避,权限模型因用户随意授权失效,静态分析对新型变种木马(RAT)、银行木马(Banking Trojan)的识别率不足50%。更棘手的是,恶意软件通过动态端口、流量加密等手段持续进化,使得基于端口识别和深度包检测(DPI)的技术逐渐失效。
为应对这一挑战,研究人员构建了融合主动学习(Active Learning, AL)、监督机器学习(Supervised ML)和威胁情报工具(Threat Intelligence Tools, TITs)的混合检测框架。该模型通过Androguard工具逆向分析APK文件,提取权限和API调用等14项关键特征,采用随机森林分类器(Random Forest Classifier, RFC)结合三种聚合策略——最大置信度(βmax
(t))、求和(βs
(t))和平均(βa
(t)),在VirusShare提供的138,047个样本(含96,724个恶意样本)上进行迭代训练。
关键技术包括:1) 基于最小置信度(Least Confidence, βL
(t)=1-max∏f(yi
|t))的不确定性采样;2) 通过TITs实时验证低置信度样本;3) 使用ExtraTreesClassifier进行特征选择;4) 采用SMOTE算法处理数据不平衡问题。
研究结果显示:
讨论指出,该研究的突破性在于:1) 首次将TITs嵌入主动学习循环,通过实时威胁情报修正决策边界;2) 提出βmax
(t)聚合策略,有效处理多检测点流量;3) 开源代码库为工业界部署提供便利。局限性在于样本时间跨度有限,未来需结合云沙箱技术应对新型勒索软件(Ransomware)。这项发表于《Machine Learning with Applications》的成果,为移动安全领域提供了兼顾效率与精度的动态防御新思路。
生物通微信公众号
知名企业招聘