基于大语言模型的代码生成研究:针对资源匮乏和特定领域编程语言的应用
《ACM Transactions on Software Engineering and Methodology》:A Survey on LLM-based Code Generation for Low-Resource and Domain-Specific Programming Languages
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
LLMs在LRPLs和DSLs的代码生成面临数据稀缺和语法语义复杂性挑战,研究汇总了111篇论文(含5篇2024-2025新文献),提出四类评估方法、六类模型优化策略及三类数据准备方案,指出缺乏统一评估框架和基准数据,并探讨与HRPLs的差异及未来机遇。
摘要
大型语言模型(LLMs)在流行编程语言的代码生成方面展现出了显著的能力。然而,它们在低资源编程语言(LRPLs)和领域特定语言(DSLs)上的表现仍是一个关键挑战。这一差距影响了数百万开发者——仅Rust就有350万用户——他们目前无法充分利用LLMs的功能。LRPLs和DSLs面临独特的挑战,包括严重的数据稀缺问题,以及DSLs高度专业化的语法和语义在通用数据集中表现不佳的问题。解决这些挑战至关重要,因为LRPLs和DSLs能够显著提高特定领域和应用(包括金融和科学工作)的开发效率。尽管已有许多关于LLMs在软件工程和代码生成方面的研究,但没有一项研究全面探讨了LRPLs和DSLs所面临的独特挑战和机遇。我们的调查通过系统地回顾当前利用LLMs进行LRPL和DSL代码生成的状态、方法论和挑战,填补了这一空白。我们从2020年至2024年发表的27,000多篇研究中筛选出了111篇论文,以了解LLMs在这些特定领域的能力和局限性。我们还将文献搜索范围扩展到了2024年至2025年的5篇最新论文。我们报告了用于LRPL和DSL代码生成的LLMs、基准测试和评估指标,以及提高LLMs性能的策略,以及相关的数据集收集和整理方法。
我们确定了文献中使用的四种主要评估技术,以及几种用于评估LRPL和DSL代码生成的指标。我们将用于LLMs改进的方法分为六大类,并总结了研究人员提出的新方法和架构。我们还对数据收集和准备的不同方法进行了分类。尽管使用了不同的技术、指标和数据集,但目前仍缺乏一种标准的方法和基准数据集来评估多种LRPLs和DSLs的代码生成情况。我们讨论了所研究方法与高资源编程语言(HRPLs)中使用的方法之间的区别,以及这些语言(尤其是DSLs)所面临的独特挑战。这些挑战源于数据稀缺、独特需求和专门领域的特性,这些领域通常需要专业指导或领域特定的工具。因此,我们为所研究的各个方面提供了不同的研究机会。这项调查为从事LLMs、软件工程和专门编程语言交叉领域的研究人员和实践者提供了一个全面的资源,为未来LRPL和DSL代码生成的进步奠定了基础。我们创建了一个GitHub仓库来整理这项调查的论文,地址为:
https://github.com/jie-jw-wu/Survey-CodeLLM4LowResource-DSL。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号