大型语言模型(LLMs)能够入侵企业网络吗?自主假设的入侵渗透测试在Active Directory网络中的应用
《ACM Transactions on Software Engineering and Methodology》:Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
自主语言模型驱动的渗透测试系统原型cochise在微软活动目录测试环境GOAD中验证,使用五类LLM展示动态攻击策略调整、跨上下文攻击(Web应用审计、社交工程、凭证分析)及攻击参数生成能力,具备自我纠正机制。实验表明LLM渗透测试成本显著低于人工,但存在安全漏洞风险及信息传递瓶颈,需人工监督。开源代码及日志供研究参考。
摘要
传统的企业渗透测试对于验证防御措施和发现漏洞至关重要,但往往受到高昂运营成本和人才短缺的限制。本文探讨了利用大型语言模型(LLM)驱动的自动化系统来解决实际环境中Active Directory(AD)企业网络所面临挑战的可行性和有效性。
我们介绍了一种名为cochise的新原型,该原型旨在利用LLM自主执行假设性渗透测试。我们的系统是首个完全自主的、由LLM驱动的框架的演示,能够在真实的Microsoft Active Directory测试环境——Game of Active Directory(GOAD)中破坏账户。评估特意使用GOAD来捕捉实际网络渗透测试中的复杂交互和有时具有不确定性的结果,从而超越了合成基准测试的局限性。
我们使用五种LLM进行了实证评估,将它们的推理能力与非推理模型进行了比较,并纳入了开放权重模型。通过全面的定量和定性分析,结合网络安全专家的意见,我们证明了自主LLM能够有效地进行假设性渗透测试模拟。主要发现包括它们能够动态调整攻击策略、执行跨上下文的攻击(例如,Web应用程序审计、社会工程学以及用于获取凭证的非结构化数据分析),以及生成特定于场景的攻击参数(如真实的密码候选项)。该原型还展示了强大的自我纠正机制,能够自动安装缺失的工具并纠正无效的命令生成。
至关重要的是,我们发现相关成本与专业渗透测试人员的成本相当,甚至通常更低,这为预算有限的组织提供了普及关键安全测试的途径。然而,我们的研究也揭示了现有的一些局限性,包括LLM“陷入死胡同”的情况、规划和执行模块之间信息传递的挑战,以及需要人工监督的关键安全问题。我们的发现为未来关于LLM驱动的网络安全自动化的软件工程研究奠定了基础,强调该原型所采用的LLM驱动架构和技术具有领域通用性,有望在更广泛的软件工程领域提升自主LLM的应用。源代码、追踪记录和分析日志已开源,以促进网络安全领域的集体研究和未来发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号