用于代码的大型语言模型的生态系统
《ACM Transactions on Software Engineering and Methodology》:Ecosystem of Large Language Models for Code
【字体:
大
中
小
】
时间:2025年11月10日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
分析LLM4Code生态系统,涵盖数据集、模型及用户贡献,揭示九类模型复用(以微调、架构共享和量化为主),发现文档和许可证模式异于常规AI项目。利用LLM自动扩展并验证结果,结论一致,提出促进生态健康发展的建议。
摘要
公开可获取的源代码的广泛可用性、语言模型的进步以及计算资源的增加,共同推动了大型代码语言模型(LLM4Code)的显著发展。这些模型并非孤立存在,而是相互依赖和互动,形成了一个值得研究的复杂生态系统。这促使我们首次对LLM4Code生态系统进行了分析。我们以Hugging Face(基于Transformer模型的主要平台)为主要数据来源,手动整理了一份专注于软件工程任务的数据集和模型列表。首先,我们确定了生态系统中的关键数据集、模型和用户,并量化了它们的贡献和重要性。接着,我们研究了每个模型的文档,以追溯其基础模型并了解新模型的开发过程。我们将LLM4Code模型的重用情况分为九类,其中前三类是微调、架构共享和量化。此外,我们还分析了文档和许可实践,发现LLM4Code的文档详细程度低于GitHub上的通用AI仓库。其许可使用模式也与其他软件仓库不同,我们进一步分析了潜在的许可不兼容问题。为了研究快速发展的LLM4Code,我们探讨了利用大型语言模型(LLM)来协助构建和分析该生态系统的潜力。OpenAI的先进LLM能够以98%的准确率识别LLM4Code模型,以87%的准确率推断基础模型,并以89%的准确率预测模型重用类型。我们利用LLM来扩展生态系统,发现手动整理的数据集得出的结论与自动创建的数据集得出的结论一致。基于我们的研究结果,我们讨论了促进LLM4Code健康发展的相关建议和措施。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号