URL2Graph++：一种用于恶意URL检测的统一语义-结构-特征学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：URL2Graph++: Unified Semantic-Structural-Character Learning for Malicious URL Detection

【字体：大中小】 时间：2026年02月12日 来源：Information Fusion 15.5

编辑推荐：

　　恶意URL检测需解决URL多样性及攻击者复杂 obfuscation 技术两大挑战。本文提出URL2Graph++框架，通过多粒度图学习（子词级和字符级双图构建）联合BERT语义嵌入与GNN结构建模，动态融合三路特征（语义、结构、字符异常），显著提升检测精度与泛化能力。实验验证其优于SOTA方法，包括对抗攻击和跨数据集场景。

叶天|贾一凡|孙建国|王彦斌|刘志全|凌晓文

中国浙江省杭州市西湖电子科技大学杭州研究院，311231

摘要

恶意URL检测仍然是网络安全领域的一个主要挑战，主要原因有二：（1）互联网的指数级增长导致URL种类极其丰富，使得通用检测变得越来越困难；（2）攻击者越来越多地使用复杂的混淆技术来逃避检测。我们认为，要根本解决这些挑战，需要：（1）获得语义理解，以提高对大量多样化URL的泛化能力；（2）准确建模URL结构中的上下文关系。在本文中，我们提出了一种新的恶意URL检测方法，该方法结合了多粒度图学习和语义嵌入，以共同捕获语义、字符级和结构特征，从而实现强大的URL分析能力。为了建模URL内部的依赖关系，我们首先在子词和字符两个层面构建了双粒度URL图，其中节点代表URL标记/字符，边表示共现关系。为了获得细粒度的嵌入，我们使用字符级卷积网络对节点表示进行初始化。然后通过联合训练的图神经网络（GNNs）处理这两个图，以学习一致的图级表示，使模型能够捕捉反映共现模式和字符级依赖关系的互补结构特征。此外，我们使用BERT来提取URL的语义表示，以实现语义上的理解。最后，我们引入了一个门控动态融合网络，将语义丰富的BERT表示与联合优化的图向量结合起来，进一步提升检测性能。我们在多个具有挑战性的维度上对我们的方法进行了广泛评估：真实世界数据分布、泛化能力、字符混淆和短URL——涵盖了关键的实践挑战。结果表明，我们的方法优于现有的最佳技术（SOTA），包括与大型语言模型的对比。我们的源代码可在以下链接获取：https://github.com/lincozz/URL2Graphplusplus。

引言

恶意URL是具有欺骗性的网页链接，旨在促进网络钓鱼、欺诈、恶意软件分发和命令与控制活动，通常通过冒充可信品牌以及利用超链接展示或重定向来实现[1]，[2]。这类链接通过窃取凭证、泄露隐私和服务中断等方式危害个人和组织[3]，[4]，[5]，[6]。最近的行业和执法报告指出，网络钓鱼的数量和财务后果严重的事件都在持续增加[7]。根据FBI 2024年互联网犯罪投诉中心（IC3）的报告，网络犯罪导致的损失达到了创纪录的166亿美元——比前一年增长了33%——而网络钓鱼和欺骗仍然是报告最多的犯罪类型[8]。这些趋势凸显了开发在对抗性环境中同时具备高准确性和操作鲁棒性的先进检测方法的必要性。

传统的防御措施——黑名单、启发式过滤器和基于规则的系统——仍然是必要的，但它们对新的或混淆的URL覆盖滞后且脆弱[9]，[10]，[11]，[12]。机器学习通过利用长度、标记频率和字符n-gram等词汇模式提高了召回率[13]，而最近的深度架构进一步利用了子词语义和上下文线索。然而，攻击者越来越多地使用短链接和语义伪装，采用子域名嵌套和路径重写，以及同形异义词替换来规避顺序检测器。实际上，有效的系统必须在分布变化下保持性能，以低误报率运行，能够在异构数据源上进行泛化，并整合高层次的语义线索和细粒度的形态学信号。

当前的恶意URL检测方法依赖于使用CNN、RNN或Transformer从URL中获取的顺序表示。然而，这些方法从根本上忽略了定义高级攻击的非顺序关系模式，面临三个限制，这阻碍了它们对不断演变的威胁的有效性：

•
非局部模式盲视——CNN和RNN本质上关注局部顺序模式，无法捕捉语义相关但位置相距较远的标记之间的关键长距离依赖关系（例如，“paypal.com/account/id235/secure/verify.php”中的“account”和“verify”之间的可疑关联，尽管中间有4个标记）。
•
结构无知——现有模型将URL视为线性字符串处理，忽略了URL固有的图状结构（包括主机-路径层次结构和查询参数关系），攻击者通过子域名嵌套（如“login.mail.service.paypal.com.confirm@phishing.com”）或路径混淆等技术系统地利用这一点。
•
字符级近视——虽然一些工作使用了字符CNN，但它们只检测局部n-gram模式，而没有建模系统性的字符级攻击策略，如同形异义词重复（如“g00gle.com”中的连续零替换）、故意拼写错误（如“faceb00k-login”）[14]，或异常的Unicode分布。这些限制共同造成了可测量的漏洞。

为了解决这些限制，我们提出了URL2Graph++，这是一个多粒度学习框架，通过四个关键组件统一了语义、结构和字符级信号：（1）双特征编码，其中BERT提取上下文子词嵌入，而CharCNN捕获字符级异常；（2）双粒度图构建，构建了子词级图（节点由标记嵌入和CharCNN特征组合初始化，以捕获语义-字符交互）和字符级图（节点由CharCNN输出初始化，用于形态学模式分析）；（3）双图学习，通过联合训练的GNNs——子词GNN识别可疑的标记关系，而字符GNN检测混淆模式，通过共享损失函数进行优化，以对齐跨粒度特征；（4）通过门控网络进行自适应融合，动态结合BERT嵌入、子词GNN输出和字符GNN输出，有效处理从语义钓鱼到字符级混淆的各种复杂URL攻击。

这项工作的主要贡献包括：

•
我们提出了第一个级联融合架构，逐步结合了三种互补的信息：（a）深度URL语义、（b）字符级异常和（3）全局依赖模式——实现了强大的URL威胁评估。
•
我们提出了第一种将URL建模为图的方法，引入了一种双粒度图方法，其中子词级和字符级图表示共同训练，以捕获（1）语义-功能共现模式（例如，恶意标记序列如/admin/login.php），（2）异常的字符级依赖关系（例如，随机字符串或同形异义词）。
•
我们的工作在URL分析方面建立了新的最佳技术（SOTA）性能，证明了：（a）对于恶意短URL的检测准确率比之前的最佳方法高出9%，（b）在包括针对URL优化的BERT变体和通用大型语言模型（LLMs）在内的最先进基线中始终表现出色，以及（c）在真实世界数据分布、泛化测试和字符混淆场景中的鲁棒性。

方法论

在本节中，我们介绍了URL2Graph++，这是一个多粒度学习框架，旨在捕获恶意URL的语义、结构和字符级模式。所提出的URL2Graph++框架的概述如图1所示。与纯粹的顺序建模方法不同，我们的方法在子词和字符两个层面构建并利用了双粒度图表示，使其能够捕获全局共现依赖关系和形态学特征

数据集

为了全面评估所提出的URL2Graph++框架，我们使用了三个公开可用的数据集，这些数据集在样本大小、类别平衡和顶级域名（TLD）分布方面存在显著差异。选择这些数据集是为了在互补条件下测试模型，包括类别平衡设置、极端类别不平衡和跨数据集验证。详细的数据集统计信息总结在表2和表3中。

GramBeddings数据集。 GramBeddings数据集[35]

实验

在本节中，我们详细制定了一个全面的实验协议，以评估我们提出方法的有效性。我们设计并进行了五种类型的实验，每种实验旨在评估模型在不同数据集分布、攻击条件和输入变化下的具体表现。

•

基准测试。我们在两个数据集上评估了我们模型的分类性能，其中一个数据集的标签相对平衡

讨论

在本节中，我们深入讨论了URL2Graph++的实验结果，强调了其有效性、泛化能力、架构优势及其实际意义。分析综合了来自数据扩展、跨数据集验证、消融研究和对抗性评估的证据，提供了对模型性能和贡献的全面理解。

局限性和未来工作

尽管URL2Graph++在多种数据集和场景中表现出色，但仍存在一些局限性，并指出了未来研究的方向：

•

对抗性操作的鲁棒性：尽管我们的方法在混淆和分布变化下表现出韧性，但其对抗自适应攻击的鲁棒性尚未得到充分探索。未来的工作应该研究潜在的漏洞，并结合防御机制，如对抗性训练、认证

结论

在这项工作中，我们提出了URL2Graph++，这是一个统一的恶意URL检测框架，通过双粒度图学习和动态融合联合建模语义、结构和字符级信息。我们的方法旨在解决两个关键挑战：在高度多样化的URL分布上进行泛化的难度，以及对抗攻击者使用的复杂混淆策略所需的韧性。通过在子词和字符两个层面构建URL图

CRediT作者贡献声明

叶天：写作——审稿与编辑、资源整理、数据管理。贾一凡：写作——初稿撰写、软件开发、调查。孙建国：监督、项目管理。王彦斌：写作——审稿与编辑、验证、调查。刘志全：验证、形式分析。凌晓文：可视化、资源整理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

数据集

实验

讨论

局限性和未来工作

结论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题