AutoTestForge:一个用于自然语言处理模型的多维度自动化测试框架

《ACM Transactions on Software Engineering and Methodology》:AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models

【字体: 时间:2025年12月12日 来源:ACM Transactions on Software Engineering and Methodology

编辑推荐:

  自动测试框架AutoTestForge通过整合LLM实现测试模板自动生成与标签验证,拓展至分类、公平性、鲁棒性三维评估,实验显示其失败率较现有方法降低32.35%-38.04%。

  

摘要

近年来,行为测试在自然语言处理(NLP)模型评估中的应用取得了显著增长。然而,现有方法受到人工依赖和能力评估范围有限的限制。为了解决这些限制,我们推出了AutoTestForge,这是一个用于NLP模型的自动化、多维度测试框架。通过集成大型语言模型(LLMs)来自动生成测试模板并实例化它们,大大减少了人工参与的需求。此外,还提出了一种基于差异测试的测试用例标签验证机制,该机制利用多模型投票系统来保证测试用例的质量。该框架在三个维度上扩展了测试套件:分类学、公平性和鲁棒性,提供了对NLP模型能力的全面评估。这种扩展使得能够深入、全面地评估模型,从而对其优缺点有宝贵的洞察。在情感分析(SA)任务和语义文本相似性(STS)任务上的全面评估表明,AutoTestForge的表现始终优于现有数据集和测试工具,失败率分别为:SA任务的平均失败率为32.35%,STS任务的平均失败率为31.61%。此外,不同的生成策略显示出稳定的有效性,失败率范围在25.77%?38.04%之间。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号