当前的语言模型是否支持R编程语言的代码智能功能？

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Software Engineering and Methodology》：Do Current Language Models Support Code Intelligence for R Programming Language?

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Software Engineering and Methodology

编辑推荐：

　　针对R语言代码智能应用的研究，收集并开源R数据集，评估多语言模型在代码摘要和方法名预测任务中的表现，发现模型在R上性能下降，分离两种R风格数据集有效，为开发R工具提供新方向。

摘要

最近在预训练语言模型（Code-PLMs）的开发方面取得了显著进展，这些模型为软件工程（SE）的许多领域带来了突破性成果。尽管这些模型在处理Java和Python等流行编程语言的SE任务时已经达到了最先进的性能水平，但科学软件及其相关语言（如R编程语言）却很少从中受益，甚至没有被用Code-PLMs进行过评估。研究表明，R语言与其他编程语言存在许多差异，需要特定的技术来处理。在这项研究中，我们首次探讨了针对R语言的代码智能应用。为此，我们收集了一个开源的R语言数据集，并使用多种设置和策略评估了Code-PLMs在代码摘要和方法名预测两个任务上的表现，其中考虑了R语言的两种风格：Tidy-verse和Base R之间的差异。实验结果表明，当处理R语言代码时，这些模型的性能会不同程度地下降，这一结论得到了人类评估的验证。此外，即使在多语言微调之后，也不是所有模型在R语言特定任务上都能提升性能。R语言中的双重语法范式对模型性能有显著影响，尤其是在代码摘要任务中。此外，R代码库中的项目特定上下文也会对跨项目训练的性能产生重要影响。有趣的是，即使使用像CodeLlama和StarCoder2这样的大型语言模型进行代码生成，其性能也明显低于Python模型的表现（Pass@K结果）。我们的研究表明，作为一种资源相对较少的语言，R需要采用不同的技术来收集高质量的数据。特别是区分R语言的两种风格对实验结果有很大影响，使用独立的数据集可以提高模型的性能。我们的研究揭示了Code-PLMs的能力，并为研究人员和实践者指明了新的研究方向，以开发适用于R语言的代码智能工具和技术。鉴于R语言的广泛使用和普及性，我们的研究结果可能会对R语言开发者的研究及工业应用产生积极影响。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号