当前的语言模型是否支持R编程语言的代码智能功能?
《ACM Transactions on Software Engineering and Methodology》:Do Current Language Models Support Code Intelligence for R Programming Language?
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
针对R语言代码智能应用的研究,收集并开源R数据集,评估多语言模型在代码摘要和方法名预测任务中的表现,发现模型在R上性能下降,分离两种R风格数据集有效,为开发R工具提供新方向。
摘要
最近在预训练语言模型(Code-PLMs)的开发方面取得了显著进展,这些模型为软件工程(SE)的许多领域带来了突破性成果。尽管这些模型在处理Java和Python等流行编程语言的SE任务时已经达到了最先进的性能水平,但科学软件及其相关语言(如R编程语言)却很少从中受益,甚至没有被用Code-PLMs进行过评估。研究表明,R语言与其他编程语言存在许多差异,需要特定的技术来处理。在这项研究中,我们首次探讨了针对R语言的代码智能应用。为此,我们收集了一个开源的R语言数据集,并使用多种设置和策略评估了Code-PLMs在代码摘要和方法名预测两个任务上的表现,其中考虑了R语言的两种风格:Tidy-verse和Base R之间的差异。实验结果表明,当处理R语言代码时,这些模型的性能会不同程度地下降,这一结论得到了人类评估的验证。此外,即使在多语言微调之后,也不是所有模型在R语言特定任务上都能提升性能。R语言中的双重语法范式对模型性能有显著影响,尤其是在代码摘要任务中。此外,R代码库中的项目特定上下文也会对跨项目训练的性能产生重要影响。有趣的是,即使使用像CodeLlama和StarCoder2这样的大型语言模型进行代码生成,其性能也明显低于Python模型的表现(Pass@K结果)。我们的研究表明,作为一种资源相对较少的语言,R需要采用不同的技术来收集高质量的数据。特别是区分R语言的两种风格对实验结果有很大影响,使用独立的数据集可以提高模型的性能。我们的研究揭示了Code-PLMs的能力,并为研究人员和实践者指明了新的研究方向,以开发适用于R语言的代码智能工具和技术。鉴于R语言的广泛使用和普及性,我们的研究结果可能会对R语言开发者的研究及工业应用产生积极影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号