利用大型语言模型（LLMs）进行内存取证：恶意软件检测的对比分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Threats: Research and Practice》：Leveraging LLMs for Memory Forensics: A Comparative Analysis of Malware Detection

【字体：大中小】 时间：2025年11月07日 来源：Digital Threats: Research and Practice

编辑推荐：

　　内存取证与LLM融合检测研究在文件less恶意软件和APT攻击中验证了LLM（如GPT4o、o1、Gemini等）的实用性，发现推理型模型（Gemini Flash-Thinking）在解码base64载荷和网络异常检测中表现更优，但存在高假阳性率（FP>80%）的缺陷，源于AI安全设计的预防性原则。研究提出需结合Volatility3模块筛选数据并优化上下文窗口限制，为混合取证系统（符号分析+领域知识+LLM推理）奠定基础。

摘要

内存取证在现代数字调查中发挥着重要作用，尤其是在检测隐蔽的、无文件形式的恶意软件以及高级持续性威胁方面。此外，大型语言模型（LLMs）在不同网络安全任务中也展现出了潜力。在本文中，我们将基于LLM的智能技术整合到内存取证工作流程中，并评估了多种LLM，包括OpenAI GPT4o、OpenAI o1、Gemini 2.0 Flash、Gemini 2.0 Flash-Thinking、Grok 3以及启用了思考模式的Grok 3。我们收集了涵盖多种攻击场景的内存转储数据，例如通过msfvenom进行的过程注入、基于PowerShell Empire的攻击，以及实际存在的恶意软件，如Quasar RAT、MassLogger、DarkCloud、LockBit和LockiBot。我们的评估指标包括准确性、精确度、召回率和F1分数，并进行了统计分析（方差分析和相关性测试）。研究结果表明，基于推理（“思考”）的LLM模型优于传统模型。OpenAI o1和Gemini Flash-Thinking在解码Base64加密的有效载荷方面表现优异，而Grok3在检测网络异常方面表现突出。然而，所有基于LLM的方法都存在较高的误报率（FP），导致精确度较低（通常低于20%）。这种倾向似乎源于人工智能安全导向中的预防原则，使得模型在面对模糊或不完整证据时倾向于采取保守态度，偶尔会误判为真实威胁。LockBit的入侵指标（IoC）无法通过LLM检测到，因为这些IoC超出了所使用的Volatility3模块的检测范围。由于这一原因以及LLM的上下文窗口大小有限，选择合适的数据至关重要。尽管存在这些局限性，该研究仍证明了将基于LLM的智能技术整合到取证系统中的可行性。这项研究为结合符号分析、领域特定启发式方法和基于LLM的智能技术的混合取证系统奠定了基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号