ByteCue:利用API信息优化字节码注释生成

《ACM Transactions on Software Engineering and Methodology》:ByteCue: enhancing bytecode comment generation with API information

【字体: 时间:2025年11月08日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  字节码注释生成方法ByteCue通过构建控制流图解析API调用,并基于Transformer模型实现高效注释生成,在122k方法级数据集上显著优于基线,BLEU-4/METEOR/ROUGE-L分别提升17.5%/16.1%/8.6%,用户研究验证其信息量和自然度优势。

  

摘要

字节码是一种专为程序解释器高效执行而设计的指令集。与人类可读的源代码不同,字节码对于程序员和研究人员来说更难以理解。字节码被广泛应用于各种软件任务中,包括恶意软件检测和代码克隆检测。为了快速准确地理解字节码的含义,并进一步协助程序员进行这些软件相关工作,我们提出了一种名为ByteCue的字节码注释生成方法,该方法使用了神经语言模型。具体来说,为了获取字节码的结构化信息,我们首先生成字节码的控制流图(CFG),同时解析字节码中调用的API并对其进行序列化。然后,我们提出了一个基于Transformer的模型来学习字节码特征以生成注释。通过从Maven仓库中知名的开源项目中收集JAR包,我们最终创建了一个包含122k个方法级别的数据集。实验表明,我们的方法在字节码注释生成方面超越了现有的最佳实践,平均在BLEU-4指标上提高了17.5%,在METEOR指标上提高了16.1%,在ROUGE-L指标上提高了8.6%,证明了其有效性和优越性。用户研究表明,ByteCue在信息丰富性和自然性方面也优于现有方法,进一步凸显了其实际价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号