AutoTestForge：一个用于自然语言处理模型的多维度自动化测试框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Software Engineering and Methodology》：AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models

【字体：大中小】 时间：2025年12月12日 来源：ACM Transactions on Software Engineering and Methodology

编辑推荐：

　　自动测试框架AutoTestForge通过整合LLM实现测试模板自动生成与标签验证，拓展至分类、公平性、鲁棒性三维评估，实验显示其失败率较现有方法降低32.35%-38.04%。

摘要

近年来，行为测试在自然语言处理（NLP）模型评估中的应用取得了显著增长。然而，现有方法受到人工依赖和能力评估范围有限的限制。为了解决这些限制，我们推出了AutoTestForge，这是一个用于NLP模型的自动化、多维度测试框架。通过集成大型语言模型（LLMs）来自动生成测试模板并实例化它们，大大减少了人工参与的需求。此外，还提出了一种基于差异测试的测试用例标签验证机制，该机制利用多模型投票系统来保证测试用例的质量。该框架在三个维度上扩展了测试套件：分类学、公平性和鲁棒性，提供了对NLP模型能力的全面评估。这种扩展使得能够深入、全面地评估模型，从而对其优缺点有宝贵的洞察。在情感分析（SA）任务和语义文本相似性（STS）任务上的全面评估表明，AutoTestForge的表现始终优于现有数据集和测试工具，失败率分别为：SA任务的平均失败率为

32.35 %

，STS任务的平均失败率为

31.61 %

。此外，不同的生成策略显示出稳定的有效性，失败率范围在

25.77 % ? 38.04 %

之间。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号