当前的语言模型是否支持R编程语言的代码智能?RCR报告
《ACM Transactions on Software Engineering and Methodology》:Do Current Language Models Support Code Intelligence for R Programming Language? RCR Report
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
R编程任务语料库构建与预训练模型性能分析,基于GitHub仓库和Roxygen2文档的代码片段匹配,揭示Tidyverse与Base R双重范式导致当前Code-PLMs性能下降,强调R语言复杂性对模型应用的影响。
摘要
在本报告中,我们介绍了一个专门为复制和扩展R编程任务实验而构建的数据集,这些任务主要包括代码摘要生成和方法名预测。该数据集是通过从GitHub收集R代码仓库、使用tree-sitter解析器解析代码片段,并根据Roxygen2文档将这些代码片段与自然语言描述进行匹配来生成的。基于这个数据集,我们对预训练的语言模型(Code-PLMs)在处理R代码时的性能进行了深入分析。我们指出了R语言的两种编程范式(Tidyverse和Base R)所带来的挑战,并证明当前的模型(包括大型语言模型)在应用于R代码时会出现不同程度的性能下降。因此,鉴于R语言多样的编程风格和语言特性,我们强调了有效利用Code-PLMs处理R代码的复杂性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号