HHGDroid:基于混合异构图结构的Android恶意软件检测方法——通过多证据相似性融合技术实现
《Expert Systems with Applications》:HHGDroid: Hybrid Heterogeneous Graph-Based Android Malware Detection via Multi-Evidence Similarity Fusion
【字体:
大
中
小
】
时间:2026年02月05日
来源:Expert Systems with Applications 7.5
编辑推荐:
Android恶意软件检测中静态与动态分析融合不足,本文提出HHGDroid方法:通过语义、权限、时间频率等多证据相似性融合构建混合异构图(含函数、事件、文件节点及关联边),并设计RCHGT模型进行可靠性校准,有效抑制噪声传播。实验表明在真实恶意软件数据集上F1达97.87%,未知样本F1达81.52%,显著优于SOTA方法。
唐俊伟|田晓梅|彭涛|卢建峰|王浩昭|李瑞萱
中国武汉纺织大学湖北智能纺织与服装工程研究中心
摘要
目前,静态分析不足以应对使用高级规避技术(如代码混淆和动态加载)的Android恶意软件。因此,结合静态结构和动态行为的混合分析已成为主流趋势。然而,现有的混合分析方法通常采用简单的特征串联或浅层融合机制,无法有效整合异构的静态和动态特征,也无法捕捉结构和行为之间的复杂关联。为了解决这个问题,我们提出了一种基于混合异构图的Android恶意软件检测方法,称为HHGDroid,该方法通过多证据相似性融合来实现。静态分析生成的函数调用图与动态分析获得的事件图通过语义、权限和时间频率等多种证据的全面相似性进行连接,最终形成具有多个异构节点和边的混合异构图。我们构建的混合异构图是首个同时具备静态和动态特征的系统。最后,我们改进了可靠性校准的异构图Transformer(RCHGT)来学习混合异构图中的多种关系,该模型能够在信息传播阶段自动区分可靠和不可靠的边。我们在真实的Android恶意软件应用上进行了实验,取得了97.87%的F1分数,优于现有方法。此外,我们在一个未知恶意软件数据集上也验证了该方法,获得了81.52%的F1分数,同样优于现有方法。HHGDroid是一种新颖且有效的Android恶意软件检测方法。
引言
Android主导了主流移动互联网市场,恶意软件对安全构成了重大威胁。检测恶意软件依赖于三种分析方法:静态分析、动态分析和混合分析。静态分析通过检查应用程序的代码结构来检测恶意软件,但在理解运行时行为方面存在困难(Li等人,2021年;Wang等人,2025年)。动态分析通过监控运行时行为来识别威胁,但其覆盖范围受到执行路径完整性的限制(Feng等人,2025年;Zhang等人,2025年;Amer等人,2025年;Li等人,2024a;Liu等人,2024a)。因此,结合静态结构特征和动态行为轨迹的混合分析被广泛认为是提高检测鲁棒性和泛化能力的有前景的方法。然而,现有混合方法中的一个根本挑战是有效且有意义地融合这些异构特征。传统技术(如简单的特征串联或浅层融合机制)往往无法捕捉代码结构和运行时行为之间的内在因果、触发或时间关系,导致在检测新应用程序时性能显著下降(Shen等人,2024年)。为了解决这一挑战,我们采用图结构作为统一的表示框架。图表示具有整合异构数据和建模复杂关系的天然能力,从而为结合来自多个来源的程序分析特征提供了结构化的基础,并实现了更深层次的语义分析。
在现有研究中,图结构被广泛用于捕捉程序的不同方面,例如使用调用图表示静态函数(Bu等人,2023年;Cai等人,2021年;Pekta?和Acarman,2020年;Yang等人,2021年)或数据流图(Liu等人,2023年;Tiwari,2024年;Wu等人,2023年;Wang等人,2023年)来建模动态执行序列。然而,这些图结构通常局限于单一视角(Shen等人,2024年),要么是静态的,要么是动态的,或者仅仅通过简单聚合来构建混合图。这种构建方法导致图表示碎片化,无法形成同时公平地封装结构和行为轨迹的连贯统一特征。更严重的是,在建立视图之间的连接时,现有方法往往缺乏对关系可靠性的细粒度评估,可能会通过虚假相关性引入语义噪声。这些图结构的局限性进一步加剧了图表示学习技术从此类数据中有效提取特征的难度。尽管图表示学习为捕捉复杂关系模式并将拓扑信息编码为低维向量以支持下游任务提供了强大的框架(Gao等人,2021年;Hu等人,2020年),但其性能在很大程度上取决于底层图结构的质量。大多数现有学习方法直接在这些有缺陷的图上进行表示学习,而没有明确建模关系可靠性或噪声过滤机制,阻碍了异构信息的真正深度融合。此外,许多模型未能充分考虑不同视图之间的语义差异,或对结构特征和行为特征之间的内在一致性施加了限制,这最终限制了模型在现实世界开放环境中的泛化能力。
为了解决融合瓶颈和可靠性挑战,我们提出了一种基于多证据相似性融合的混合异构图构建方法(HHGDroid),以及一个用于有效学习的可靠性校准的异构图Transformer(RCHGT)。具体来说,HHGDroid通过静态分析生成函数调用图,并通过动态分析提取运行时事件图。只有当函数节点和事件节点之间的连接得到多个一致证据的支持时,才会建立这些连接。这些证据包括代码语义、权限一致性、时间频率和资源路径相似性,所有这些都必须共同表明潜在的关联。这一过程产生了一个包含函数节点、事件节点和资源节点的混合异构图,这些节点通过调用、触发、访问和基于相似性的融合边相互连接。与仅包含静态或动态特征的图不同,我们的图真正地将这两个方面整合在一个统一的表示中。为了解决视图之间连接的潜在噪声问题,我们进一步提出了RCHGT模型。其核心创新将边可靠性建模纳入注意力机制,使模型能够在信息传播过程中自主评估边的可信度。可靠性门控机制同时减弱来自低可信度边的消息,从而减轻噪声传播。在统一的架构下,RCHGT实现了混合异构图中多关系和多类型信息的稳健融合,更准确地捕捉了静态结构和动态行为之间的交互。我们的方法在处理未知应用程序时展示了增强的泛化能力。这一改进源于图构建质量和学习可靠性的双重保证:多证据融合策略在源头上减少了虚假相关性,提供了干净的语义基础,而可靠性校准机制在学习过程中动态抑制了残余噪声。
主要贡献如下:
•我们提出了一种基于多证据相似性融合的新型混合异构图构建方法HHGDroid。该方法基于语义、权限和时间频率等多种证据,整合了异构的静态和动态特征,将静态分析的函数调用图与动态分析的事件图连接起来。我们的图结构能够在更深层次上表示静态结构和动态行为之间的内在语义关系。
•作为所提出的HHGDroid框架的核心表示学习模块,我们提出了可靠性校准的异构图Transformer(RCHGT)。RCHGT旨在准确建模构建的混合图中的异构关联,并解决视图之间连接的噪声问题。具体来说,它将多证据融合得出的全面相似性纳入图注意力机制,使系统能够自主区分不同边的可信度。此外,引入了可靠性门控机制,在消息传播过程中减弱来自低可信度边的潜在噪声,确保HHGDroid实现稳健的融合和对Android恶意软件检测的多关系和多类型信息的精确建模。
•我们在真实的Android恶意软件数据集上评估了我们的HHGDroid。实验结果表明,HHGDroid在关键检测指标上显著优于现有方法,取得了97.87%的F1分数。此外,HHGDroid在未知恶意软件数据集上也获得了81.52%的竞争性F1分数,大幅超过了所有比较方法,证实了其在面对新类型和变种恶意软件时的强大泛化能力。
相关工作
相关工作
近年来,研究人员认识到程序本质上是由多个交互实体组成的复杂系统。因此,图结构已成为理想的表示方法,因为它们可以保留程序结构信息,并为整合静态和动态特征提供统一的框架。图神经网络(GNNs),特别是能够处理多类型节点和边的异构图模型,已成为这一领域的强大工具
总体框架
在本节中,我们介绍了我们提出的方法HHGDroid的总体框架。如图1所示,HHGDroid是一个由三个关键阶段组成的综合恶意软件检测系统:(1)通过静态和动态分析提取特征,(2)构建混合异构图,(3)使用RCHGT模型进行恶意软件检测。这些组件的详细工作流程如下:
(1) 提取特征:首先,静态分析使用Androguard
实验与评估
我们的实验在以下配置的系统上进行:操作系统是Ubuntu 22.04.5 LTS,配备了NVIDIA Quadro M5000 GPU(8 GiB内存)。所有软件均使用Python 3.8.20编写。使用的深度学习框架是PyTorch 1.13.1,支持CUDA 11.6,图神经网络模型基于PyTorch Geometric(PyG 2.2.0)构建,并包含了定制模块。
讨论与局限性
我们的HHGDroid存在以下局限性。生成可用的文件操作序列需要应用程序在沙箱环境中完成整个运行时过程。这一过程耗时较长,高度依赖于环境配置,并且容易受到针对沙箱环境的规避机制的影响。不同设备、系统版本和运行时条件下的动态行为各不相同。即使是相同的应用程序也会产生不一致的文件操作轨迹
结论
我们提出了基于混合异构图的HHGDroid检测方法,该方法专注于文件操作。该方法将静态函数调用关系与动态事件序列整合起来,构建了一个连接函数、事件和文件节点的完整行为链。这种结构方法有效地弥合了静态和动态特征之间的语义差距。对于模型设计,我们开发了RCHGT(可靠性校准的异构图Transformer)。
CRediT作者贡献声明
唐俊伟:概念化、写作 – 审稿与编辑、监督、项目管理。田晓梅:软件、方法论、形式分析、调查、原始草稿写作。彭涛:写作 – 审稿与编辑、监督。卢建峰:数据管理、验证。王浩昭:监督、写作 – 审稿与编辑。李瑞萱:资源管理、写作 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号