AutoTestForge:一个用于自然语言处理模型的多维度自动化测试框架
《ACM Transactions on Software Engineering and Methodology》:AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models
【字体:
大
中
小
】
时间:2025年12月12日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
自动测试框架AutoTestForge通过整合LLM实现测试模板自动生成与标签验证,拓展至分类、公平性、鲁棒性三维评估,实验显示其失败率较现有方法降低32.35%-38.04%。
摘要
近年来,行为测试在自然语言处理(NLP)模型评估中的应用取得了显著增长。然而,现有方法受到人工依赖和能力评估范围有限的限制。为了解决这些限制,我们推出了AutoTestForge,这是一个用于NLP模型的自动化、多维度测试框架。通过集成大型语言模型(LLMs)来自动生成测试模板并实例化它们,大大减少了人工参与的需求。此外,还提出了一种基于差异测试的测试用例标签验证机制,该机制利用多模型投票系统来保证测试用例的质量。该框架在三个维度上扩展了测试套件:分类学、公平性和鲁棒性,提供了对NLP模型能力的全面评估。这种扩展使得能够深入、全面地评估模型,从而对其优缺点有宝贵的洞察。在情感分析(SA)任务和语义文本相似性(STS)任务上的全面评估表明,AutoTestForge的表现始终优于现有数据集和测试工具,失败率分别为:SA任务的平均失败率为,STS任务的平均失败率为。此外,不同的生成策略显示出稳定的有效性,失败率范围在之间。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号