当前的语言模型是否支持R编程语言的代码智能功能?

《ACM Transactions on Software Engineering and Methodology》:Do Current Language Models Support Code Intelligence for R Programming Language?

【字体: 时间:2025年11月07日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  针对R语言代码智能应用的研究,收集并开源R数据集,评估多语言模型在代码摘要和方法名预测任务中的表现,发现模型在R上性能下降,分离两种R风格数据集有效,为开发R工具提供新方向。

  

摘要

最近在预训练语言模型(Code-PLMs)的开发方面取得了显著进展,这些模型为软件工程(SE)的许多领域带来了突破性成果。尽管这些模型在处理Java和Python等流行编程语言的SE任务时已经达到了最先进的性能水平,但科学软件及其相关语言(如R编程语言)却很少从中受益,甚至没有被用Code-PLMs进行过评估。研究表明,R语言与其他编程语言存在许多差异,需要特定的技术来处理。在这项研究中,我们首次探讨了针对R语言的代码智能应用。为此,我们收集了一个开源的R语言数据集,并使用多种设置和策略评估了Code-PLMs在代码摘要和方法名预测两个任务上的表现,其中考虑了R语言的两种风格:Tidy-verseBase R之间的差异。实验结果表明,当处理R语言代码时,这些模型的性能会不同程度地下降,这一结论得到了人类评估的验证。此外,即使在多语言微调之后,也不是所有模型在R语言特定任务上都能提升性能。R语言中的双重语法范式对模型性能有显著影响,尤其是在代码摘要任务中。此外,R代码库中的项目特定上下文也会对跨项目训练的性能产生重要影响。有趣的是,即使使用像CodeLlama和StarCoder2这样的大型语言模型进行代码生成,其性能也明显低于Python模型的表现(Pass@K结果)。我们的研究表明,作为一种资源相对较少的语言,R需要采用不同的技术来收集高质量的数据。特别是区分R语言的两种风格对实验结果有很大影响,使用独立的数据集可以提高模型的性能。我们的研究揭示了Code-PLMs的能力,并为研究人员和实践者指明了新的研究方向,以开发适用于R语言的代码智能工具和技术。鉴于R语言的广泛使用和普及性,我们的研究结果可能会对R语言开发者的研究及工业应用产生积极影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号