“越大并不总是越好”:探索用于日志语句生成的小型开源语言模型

《ACM Transactions on Software Engineering and Methodology》:Larger Is Not Always Better: Exploring Small Open-source Language Models in Logging Statement Generation

【字体: 时间:2025年11月08日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  本研究首次对SOLM进行大规模评估,发现通过LoRA和RAG技术调优的Qwen2.5-coder-14B模型在日志生成任务中表现最优,其预测准确率高于现有工具和基线模型,且具备隐私保护优势,为自动化日志生成提供高效解决方案。

  

摘要

开发人员使用日志记录语句来创建日志,以记录系统行为并辅助软件维护。因此,高质量的日志记录对于有效的维护至关重要;然而,手动日志记录往往会导致错误和不一致性。最近的方法强调使用大型语言模型(LLMs)来自动生成日志记录语句,但这些方法存在隐私和资源问题,限制了它们在企业中的适用性。本文首次进行了大规模的实证研究,评估小型开源语言模型(SOLMs)在自动生成日志记录语句方面的性能。我们使用多种提示策略和参数高效的微调技术(如低秩适应(LoRA)和检索增强生成(RAG))来评估四种知名的小型开源语言模型。研究结果表明,经过LoRA和RAG提示微调的小型开源语言模型,特别是Qwen2.5-coder-14B,在预测日志位置和生成高质量日志记录语句方面优于现有的工具和大型语言模型基线(例如Claude3.7 sonnet和GPT4o),并且在不同代码库中表现出良好的泛化能力。这些发现表明,小型开源语言模型是一种既能保护隐私又高效的自动日志记录解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号