通过大型语言模型对JavaScript代码进行反混淆处理，并识别其中的安全漏洞

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：Deobfuscation of JavaScript code and identification of security weaknesses through large language models

【字体：大中小】 时间：2025年12月25日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　本研究评估了基于LLMs的JavaScript解混淆流程，发现其能保留结构特征以识别安全弱点（CWEs），优于传统工具。但存在处理复杂代码（如lambda函数、分块代码）的局限性，且需结合解释模型（如ChatGPT、Gemini）提升安全分析。

　　
本文探讨如何利用大语言模型（LLMs）解混淆JavaScript代码并保持结构特性，以支持安全漏洞的识别。研究团队来自意大利国家研究委员会，其核心贡献在于构建了一个基于LLMs的自动化解混淆管道，并评估了其在保持代码结构完整性和检测常见弱点（CWEs）方面的性能。

### 核心研究目标
1. **解混淆与结构保留**：通过LLMs解混淆JavaScript代码时，需确保关键结构（如控制流、变量命名、函数逻辑）不被破坏，以便后续安全分析。
2. **CWE检测有效性**：验证解混淆后的代码是否能准确保留原代码中的安全弱点（如缓冲区溢出、命令注入等）。
3. **与传统工具对比**：评估基于LLMs的方法与现有工具（如JSNice、js-deobfuscator）在性能、可读性、代码完整性等方面的差异。

### 关键技术方法
1. **数据准备与预处理**：
- 数据集取自Snyk漏洞库，包含1,852个受CWE影响的JavaScript片段。
- 使用标准混淆工具（如javascript-obfuscator）对原始代码进行混淆，包括控制流平坦化、死代码注入、字符串数组编码和变量重命名。
- 数据清洗剔除含语法错误的代码，最终保留771个有效样本用于训练和测试。

2. **模型架构与训练**：
- 采用T5-Large模型，其预训练数据涵盖多种编程语言（包括JavaScript），具备处理复杂代码结构的潜力。
- 微调阶段采用序列到序列（seq2seq）架构，输入为混淆代码，输出为原始结构相似的代码。通过交叉熵损失函数优化模型，重点提升保留代码结构的能力。

3. **评估指标**：
- **Jaccard相似性**：衡量解混淆代码与原始代码的结构重叠度。
- **BLEU分数**：评估解混淆代码与原始代码的语义一致性（4-gram匹配）。
- **Tree Edit Distance（TED）**：量化解混淆代码与原始代码的AST差异。
- **循环复杂度**：作为代码复杂性的代理指标，分析不同工具的表现差异。

### 实验结果分析
1. **性能对比**：
- LLM方法在Jaccard相似性（平均0.98）和BLEU（0.51）指标上优于传统工具（JSNice的Jaccard为0.67，js-deobfuscator为0.66）。
- TED指标显示，LLM生成的代码结构差异较小（平均2.0），而传统工具在复杂代码中表现显著 worse（平均TED为9.0）。
- 循环复杂度与性能指标的相关性分析表明，LLMs在复杂代码中仍保持稳定性能，而传统工具性能随复杂度增加急剧下降。

2. **局限性发现**：
- **语义误解**：部分代码片段（如嵌套循环、复杂类型）被LLMs过度简化，导致安全弱点丢失。例如，某代码段中的数组越界访问（CWE-125）在解混淆后未被保留。
- **语法处理不足**：对lambda函数、匿名函数等高级结构的处理存在偏差，可能导致控制流逻辑错误。
- **类型意识缺失**：LLMs可能将复杂数据类型扁平化为简单判断（如if-else分支），影响对类型相关漏洞（如CWE-1321原型污染）的识别。

3. **安全边界挑战**：
- **对抗性攻击**：攻击者可通过代码分割（如将有效代码与死代码交叉混合）和lambda化策略绕过模型检测。
- **上下文窗口限制**：模型最大处理长度为1,024个token，对超过该长度的代码需分段处理，可能破坏代码逻辑连贯性。
- **动态分析需求**：部分混淆技术（如动态死代码注入）需结合运行时分析才能有效解混淆，当前方法依赖静态分析。

### 实际应用案例
1. **访问控制漏洞（CWE-20）**：
- 原始代码存在未校验的用户ID数组访问，LLMs解混淆后保留该逻辑，ChatGPT可准确识别漏洞。
- 混淆版本因控制流平坦化导致漏洞隐蔽，LLMs解混淆后恢复嵌套循环结构，使静态分析工具（如CWE匹配器）能直接识别。

2. **服务器端请求伪造（CWE-918）**：
- 原始代码通过`downloadURL()`函数执行未经验证的URL下载，LLMs解混淆后保留该函数逻辑，ChatGPT和Gemini均能检测到CWE-918。
- 混淆版本因变量名重命名和条件嵌套，传统工具（js-deobfuscator）错误归类为CWE-79（XSS），LLMs解混淆后正确识别。

### 安全启示与改进方向
1. **对抗防御策略**：
- **代码分段攻击**：将有效代码与死代码分散存储，迫使LLMs在有限上下文中处理碎片化逻辑。
- **lambda混淆**：使用lambda表达式隐藏代码结构，需改进模型对函数式编程的支持。
- **动态注入**：结合运行时环境注入死代码，需开发混合分析框架。

2. **模型优化方向**：
- **上下文扩展**：通过注意力机制处理长代码段，或采用分块处理-聚合分析策略。
- **领域微调**：在预训练基础上加入安全相关代码库（如CWE数据库、常见混淆模式），提升对漏洞模式的理解。
- **多模型协同**：集成ChatGPT、Gemini等不同LLMs的检测能力，通过prompt engineering实现互补分析。

3. **工程化建议**：
- **自动化验证**：解混淆后代码需通过静态分析工具（如SonarQube）二次验证，确保未引入新漏洞。
- **人类反馈闭环**：设置安全专家审核关键解混淆结果，对置信度低的输出进行人工干预。
- **对抗性训练**：在数据集中加入对抗样本（如故意混淆的CWE代码），提升模型鲁棒性。

### 行业影响与未来展望
本研究为LLMs在软件安全中的应用提供了重要基准，尤其在代码可读性与漏洞可检测性之间取得平衡。其成果可应用于：
- **安全态势管理**：作为代码审计的辅助工具，加速发现CWE。
- **威胁情报分析**：通过解混淆恶意代码库（如MITRE ATT&CK），快速提取通用攻击模式。
- **开发流程集成**：将解混淆步骤嵌入CI/CD管道，在代码提交时自动检测潜在漏洞。

未来研究需重点关注：
1. **模型轻量化**：开发适用于边缘设备的专用解混淆模型，降低计算开销。
2. **动态分析增强**：结合沙箱执行结果与LLMs静态分析，提升对运行时注入漏洞的检测率。
3. **跨语言支持**：扩展模型至TypeScript、JavaScript运行时（如Node.js）等生态，覆盖更多实际场景。

该研究为LLMs在安全领域的应用开辟了新方向，但也揭示了当前技术瓶颈，需结合对抗训练、多模态分析等手段持续优化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号