《Scientific Data》:MH-1M: A 1.34 Million-Sample Multi-Feature Android Malware Dataset with Rich Metadata
编辑推荐:
为解决现有Android恶意软件数据集规模小、特征单一、标签过时等问题,研究人员构建了MH-1M数据集。该数据集包含134万个样本,涵盖API调用、权限、意图和操作码等22,810个特征,并利用VirusTotal API进行多引擎标注。研究结果表明,基于该数据集训练的XGBoost模型在恶意软件检测中表现出色,为理解恶意软件演化及开发鲁棒检测模型提供了重要资源。
随着智能手机的普及,Android系统凭借其开源特性和庞大的应用生态,已成为全球最受欢迎的移动操作系统。然而,这也使其成为网络攻击者的主要目标,Android恶意软件的数量和复杂性持续激增,对个人隐私和财产安全构成了严重威胁。为了应对这一挑战,基于机器学习(Machine Learning, ML)的恶意软件检测技术应运而生,并展现出巨大的潜力。然而,一个核心问题制约了这些先进技术的进一步发展:缺乏高质量、大规模且特征丰富的训练数据。
现有公开的Android恶意软件数据集普遍存在规模小、特征单一、数据过时以及标签标准不统一等局限性。例如,著名的Drebin数据集虽然包含约100万个样本,但其数据主要来源于2012年,已难以反映当前恶意软件的真实面貌。而其他一些数据集虽然较新,但样本量往往不足10万,且仅包含权限或API调用等单一类型的特征,无法全面刻画恶意软件的复杂行为。这种数据上的不足,直接导致了机器学习模型在真实世界中的泛化能力差、对新变种检测能力弱等问题,严重阻碍了网络安全研究的进展。
为了从根本上解决这一“数据瓶颈”,来自巴西联邦大学(Federal University of Amazonas)和联邦帕姆帕大学(Federal University of Pampa)的研究团队在《Scientific Data》上发表了他们的最新研究成果,正式发布了MH-1M数据集。这是一个包含134万个Android应用样本的大规模、多特征恶意软件数据集,旨在为下一代恶意软件检测研究提供坚实的数据基础。
关键技术方法
为了构建MH-1M数据集,研究人员开发了一套自动化数据处理管道,主要基于AMGenerator和AMExplorer两个开源工具。该流程首先从AndroZoo仓库下载Android应用包(APK),然后利用AndroGuard等工具进行静态分析,提取包括API调用、权限、意图和操作码在内的22,810个特征。随后,通过VirusTotal API获取每个样本的多引擎扫描结果,并采用阈值策略(如4个以上引擎报毒则标记为恶意)进行标签标注,最终生成超过400GB的结构化数据集。
研究结果
1. 数据集规模与特征覆盖度
MH-1M数据集共包含1,340,515个Android应用样本,时间跨度从2010年到2024年,覆盖了14年的Android应用演化历史。其中,恶意软件样本119,094个(占比8.9%),良性样本1,221,421个(占比91.1%),这种分布比例更接近真实世界的应用生态,有助于训练出更鲁棒的分类模型。
在特征维度上,MH-1M提供了前所未有的丰富度。它包含了22,394个API调用、407个意图、214个权限以及232个操作码,总计22,810个静态特征。这种多维度的特征表示,使得研究人员能够从高层行为(如权限和意图)到低层代码执行(如操作码)等多个层面,对应用进行全面的分析和建模。
2. 基于XGBoost的恶意软件分类性能
为了验证MH-1M数据集的有效性,研究人员使用XGBoost(Extreme Gradient Boosting)分类器进行了基准测试。在70-30的留出验证(Holdout Validation)设置下,模型在MH-1M数据集上取得了优异的性能:
- •
总体准确率(Accuracy):98.51%
- •
良性样本(Class 0):精确率(Precision)为98.87%,召回率(Recall)为99.51%,F1分数为99.19%。
- •
恶意样本(Class 1):精确率为94.62%,召回率为88.31%,F1分数为91.36%。
这些结果表明,基于MH-1M训练的模型能够非常准确地识别良性应用,同时也能以较高的精度检测出恶意软件,证明了该数据集在支持高性能分类模型方面的巨大潜力。
3. 跨数据集泛化能力评估
为了进一步评估模型的泛化能力,研究人员进行了交叉分类实验。他们分别使用MH-1M训练模型并在MH-100K(一个较小的数据集)上测试,以及使用MH-100K训练模型并在MH-1M上测试。
- •
MH-1M训练,MH-100K测试:模型表现良好,CatBoost模型在良性样本上的误报率仅为2.74%,在恶意样本上的漏报率为6.27%,显示出强大的泛化能力。
- •
MH-100K训练,MH-1M测试:模型性能显著下降,特别是对恶意样本的召回率极低,导致75.50%的恶意软件被误判为良性。这凸显了训练数据的规模和多样性对于模型泛化到更广泛、更复杂的真实世界场景中的重要性。
4. 恶意软件家族的可视化分析
通过UMAP(Uniform Manifold Approximation and Projection)降维技术,研究人员将高维特征投影到二维空间,对恶意软件家族进行了可视化分析。结果显示,特洛伊木马(Trojan)和广告软件(Adware)样本在中心区域高度重叠,表明它们共享许多行为特征。而风险软件(Riskware)样本则分布较为分散,反映了其行为模式的多样性。这种可视化分析有助于研究人员直观地理解不同恶意软件家族之间的相似性和差异性。
结论与讨论
MH-1M数据集的发布,标志着Android恶意软件研究领域迈入了一个新的阶段。它不仅解决了现有数据集在规模、时效性和特征多样性上的不足,更重要的是,它为研究人员提供了一个前所未有的平台,用于探索一系列前沿的科学问题。
首先,MH-1M支持对恶意软件的长期演化进行纵向研究。通过分析跨越14年的数据,研究人员可以追踪恶意软件家族的出现、演变和消亡,以及其行为特征(如API调用模式、权限请求)随时间的变化规律,这对于预测未来威胁趋势具有重要意义。
其次,该数据集为研究概念漂移(Concept Drift)提供了理想的测试床。在网络安全领域,恶意软件的行为会随着时间推移而发生变化,导致基于旧数据训练的模型性能下降。MH-1M的时间分层特性,使得研究人员能够系统地评估模型在面对新威胁时的泛化能力,并开发出能够持续学习和适应的检测系统。
此外,MH-1M的高维特征空间为特征选择和降维技术的研究提供了丰富的土壤。研究人员可以探索哪些特征子集对恶意软件检测最为关键,从而设计出更高效、更轻量级的检测模型。
最后,MH-1M的发布也促进了研究透明度和可复现性。通过提供完整的原始数据、处理代码和详细的元数据,该数据集为其他研究者的工作提供了坚实的基准,有助于推动整个领域的健康发展。
总而言之,MH-1M不仅是一个庞大的数据集合,更是一个推动Android恶意软件检测研究向更深、更广方向发展的催化剂。它为解决当前网络安全领域面临的数据挑战提供了关键资源,并为开发下一代鲁棒、智能的恶意软件防御系统奠定了坚实的基础。