利用大型语言模型(LLMs)进行内存取证:恶意软件检测的对比分析

《Digital Threats: Research and Practice》:Leveraging LLMs for Memory Forensics: A Comparative Analysis of Malware Detection

【字体: 时间:2025年11月07日 来源:Digital Threats: Research and Practice

编辑推荐:

  内存取证与LLM融合检测研究在文件less恶意软件和APT攻击中验证了LLM(如GPT4o、o1、Gemini等)的实用性,发现推理型模型(Gemini Flash-Thinking)在解码base64载荷和网络异常检测中表现更优,但存在高假阳性率(FP>80%)的缺陷,源于AI安全设计的预防性原则。研究提出需结合Volatility3模块筛选数据并优化上下文窗口限制,为混合取证系统(符号分析+领域知识+LLM推理)奠定基础。

  

摘要

内存取证在现代数字调查中发挥着重要作用,尤其是在检测隐蔽的、无文件形式的恶意软件以及高级持续性威胁方面。此外,大型语言模型(LLMs)在不同网络安全任务中也展现出了潜力。在本文中,我们将基于LLM的智能技术整合到内存取证工作流程中,并评估了多种LLM,包括OpenAI GPT4o、OpenAI o1、Gemini 2.0 Flash、Gemini 2.0 Flash-Thinking、Grok 3以及启用了思考模式的Grok 3。我们收集了涵盖多种攻击场景的内存转储数据,例如通过msfvenom进行的过程注入基于PowerShell Empire的攻击,以及实际存在的恶意软件,如Quasar RAT、MassLogger、DarkCloud、LockBit和LockiBot。我们的评估指标包括准确性、精确度、召回率和F1分数,并进行了统计分析(方差分析和相关性测试)。研究结果表明,基于推理(“思考”)的LLM模型优于传统模型。OpenAI o1Gemini Flash-Thinking在解码Base64加密的有效载荷方面表现优异,而Grok3在检测网络异常方面表现突出。然而,所有基于LLM的方法都存在较高的误报率(FP),导致精确度较低(通常低于20%)。这种倾向似乎源于人工智能安全导向中的预防原则,使得模型在面对模糊或不完整证据时倾向于采取保守态度,偶尔会误判为真实威胁。LockBit的入侵指标(IoC)无法通过LLM检测到,因为这些IoC超出了所使用的Volatility3模块的检测范围。由于这一原因以及LLM的上下文窗口大小有限,选择合适的数据至关重要。尽管存在这些局限性,该研究仍证明了将基于LLM的智能技术整合到取证系统中的可行性。这项研究为结合符号分析、领域特定启发式方法和基于LLM的智能技术的混合取证系统奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号