通过基于大型语言模型的代码修订和抽象语法树（AST）图建模实现细致的代码克隆检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Nuanced Code Clone Detection Through LLM-Based Code Revision and AST Graph Modeling

【字体：大中小】 时间：2025年11月12日 来源：IEEE Access 3.6

编辑推荐：

　　语义等效代码片段检测框架融合LLM生成多样化变体与GAT编码AST图，通过对比损失对齐语义等价片段的嵌入表示，并联合分类损失提升检测精度。实验表明该框架在Google Code Jam和BigCloneBench数据集上显著优于基线，F1分别提升+1.5%和+4.0%，尤其在处理Type-4克隆时效果突出。

　　代码克隆检测是一个在软件工程中至关重要的任务，其核心目标是识别出功能相似但语法差异显著的代码片段，尤其是被称为“类型4”（Type-4）的语义等价克隆。这类克隆在传统方法中往往难以识别，因为它们在表面形式上存在显著差异，但内在逻辑和行为却高度一致。本文提出了一种新的框架，结合了大语言模型（LLM）生成的代码修订、抽象语法树（AST）图建模和图注意力网络（GAT），旨在提升语义克隆的检测性能。通过将语义对齐的对比损失与克隆检测的分类损失相结合，该方法不仅提升了模型对语义等价代码片段的识别能力，还增强了其对语法变化的鲁棒性。

传统的代码克隆检测方法通常依赖于语法结构或令牌匹配，这些方法在识别类型1、2和3克隆（即语法相似的代码）时表现良好，但在面对类型4克隆时面临挑战。这主要是因为语法结构的差异使得基于AST或令牌的匹配器难以捕捉到语义上的等价性。因此，研究者开始探索使用神经网络和图模型来增强代码克隆检测的能力。然而，现有的神经模型往往缺乏对实际代码中广泛存在的细微语义变化（如标识符重命名、控制流重构、语句顺序调整等）的充分训练，这限制了它们在复杂克隆场景中的表现。

为了克服这一问题，本文提出了一种基于LLM的数据增强策略。通过使用大语言模型生成语法上不同但功能相同的代码变体，可以有效模拟类型4克隆，从而丰富训练数据集，提升模型对语义等价代码的识别能力。具体而言，LLM被用来重写代码，生成与原始代码语义一致但语法上有所变化的版本，例如改变变量名、重构循环结构或调整控制流。这种增强方法不仅增加了训练数据的多样性，还帮助模型学习到更鲁棒的语义特征，从而在面对不同形式的代码时，能够保持较高的检测精度。

在方法实现上，本文构建了AST图，并利用GAT（图注意力网络）来学习代码的结构感知嵌入。AST图将代码的语法结构和语义信息进行编码，而GAT则通过注意力机制，对AST节点之间的信息传递进行建模，使模型能够捕捉到更复杂的语义关系。此外，为了增强模型对语义等价代码的识别能力，引入了对比损失函数，该函数鼓励语义等价的代码片段在嵌入空间中保持接近，而语义不等价的代码片段则被推远。这种设计不仅提高了模型对语义相似代码的识别能力，还增强了其对非克隆代码的区分度。

在实验部分，本文在两个广泛使用的基准数据集——Google Code Jam（GCJ）和BigCloneBench上进行了评估。GCJ数据集包含1,669个Java文件，覆盖了12个任务，其中不同开发者提交的解决方案在语法上存在显著差异，但功能相似，这使得GCJ成为评估语义克隆检测能力的理想测试环境。而BigCloneBench则是一个规模更大的克隆数据集，包含超过600万对已标记的代码片段，涵盖10种功能类别，并根据语法和语义相似性对克隆进行分类。由于类型4克隆在BigCloneBench中占据主导地位（占比达98.23%），因此该数据集对于测试模型的语义识别能力尤为重要。

在GCJ数据集上，该方法达到了0.99的精度、0.98的召回率和0.985的F1分数，超过了当前最先进的基线方法（F1为0.97），在F1指标上提升了1.5个百分点。在BigCloneBench数据集上，该方法实现了0.97的精度、0.96的召回率和0.97的F1分数，相较最佳基线（F1为0.93）提升了4.0个百分点，尤其是在类型3和类型4克隆（WT3/T4）的检测中，F1分数提升了3.8个百分点。这些结果表明，该方法在处理语义克隆方面具有显著优势，特别是在面对复杂语法变化的代码时，能够更准确地识别其语义等价性。

此外，本文还进行了消融实验，以评估各个组件对模型性能的影响。实验结果显示，LLM生成的数据增强和GAT的AST编码是提升检测性能的关键因素。例如，当移除GAT模块时，F1分数从0.985降至0.835，这表明GAT在捕捉代码结构依赖关系方面发挥了重要作用。同样，移除LLM数据增强后，F1分数下降了约5个百分点，说明增强数据对于模型泛化能力的提升具有重要意义。对比损失的移除虽然导致F1分数略有下降，但模型仍然表现良好，因为分类损失提供了直接的监督信号。然而，当仅依赖对比损失进行训练时，F1分数下降至0.915，这表明分类损失对于模型在二分类任务中的决策边界构建至关重要。

在模型的训练过程中，本文采用了一种联合优化策略，将对比损失和分类损失结合起来，以平衡语义对齐与语法区分。对比损失用于拉近语义等价代码片段的嵌入距离，而分类损失则确保模型能够区分克隆与非克隆代码。通过这种方式，模型不仅能够学习到具有代表性的语义特征，还能在面对不同形式的代码时保持良好的分类性能。同时，模型的训练还考虑了数据比例的影响，展示了其在不同规模数据集上的表现，进一步验证了其在实际应用中的鲁棒性。

在计算效率方面，本文分析了所提出框架在运行时的性能表现。实验结果显示，尽管LLM增强框架在语义识别上具有较高的准确率，但其实际部署时的运行时间和内存消耗是需要考虑的问题。为了优化性能，本文在模型设计中引入了数据预处理和离线生成代码变体的策略，从而降低了推理阶段的计算负担。在训练阶段，由于LLM生成的数据增强过程，模型的训练时间略长于基于Transformer的检测器（如CodeBERT和GraphCodeBERT），但在推理阶段，其速度仅比这些模型慢约1.4倍，同时保持了接近当前最佳的F1分数。此外，模型在GPU上的内存占用也处于可控范围内，仅为7.8GB（对于每批256个AST对），远低于NVIDIA V100 GPU的32GB上限。这表明，该框架在保持高性能的同时，也具备良好的可扩展性和部署可行性。

为了进一步理解模型在语义克隆检测中的表现，本文还对嵌入空间进行了可视化分析。通过t-SNE降维技术，将高维的AST嵌入投影到二维空间中，观察到克隆对在嵌入空间中形成了紧凑的聚类，而非克隆对则分布在更广泛的区域。这种分布模式表明，模型通过对比损失成功地拉近了语义等价代码的嵌入距离，同时保持了对非克隆代码的区分能力。这种语义聚类的形成，不仅验证了模型的有效性，也为未来的研究提供了可视化参考。

本文还讨论了未来可能的研究方向。首先，模型在细粒度语义理解和意图建模方面仍有提升空间，例如，可以通过引入更精细的语义嵌入（如基于文档、类型信息或意图感知的表示）来增强对细微语义变化的识别能力。其次，跨语言和跨范式的克隆检测是一个值得探索的方向，尤其是在多语言代码库中，如何将模型扩展至支持不同编程语言（如Python、Java、C/C++等）以及不同编程范式（如函数式编程和面向对象编程）的克隆识别，仍然是一个挑战。第三，动态克隆检测也是一个重要方向，即通过整合运行时信息（如执行轨迹、符号状态或测试输入输出嵌入）来识别在不同输入条件下行为一致但语法不同的代码。第四，模型的可扩展性和计算效率仍需进一步优化，特别是在处理大规模代码库时，如何实现模型的高效训练和推理，是未来研究的重要课题。最后，模型的可解释性也值得关注，例如，通过可视化AST节点的注意力权重，生成自然语言的解释，以及引入开发者反馈机制，可以进一步提升模型的实用性和可接受度。

综上所述，本文提出了一种结合LLM生成的数据增强与图注意力网络的语义建模方法，为语义克隆检测提供了一种新的思路。该方法不仅在多个基准数据集上取得了优异的性能，还在计算效率和可扩展性方面表现出良好的平衡。未来的研究可以进一步探索如何在多语言、动态行为识别以及模型可解释性方面进行改进，以推动代码克隆检测技术向更通用、更智能的方向发展。

联系信箱：

粤ICP备09063491号

热点排行