政府事务领域大型语言模型的评估框架与基准
《ACM Transactions on Intelligent Systems and Technology》:The Evaluation Framework and Benchmark for Large Language Models in the Government Affairs Domain
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
政府事务领域大语言模型应用面临数据获取难、评估标准缺失及模型安全可靠性不足等问题。本研究构建模块化评估框架并开发中文政务场景MSGA数据集,实验发现15个主流模型存在性能波动大(部分低于35%)、隐私漏洞多、任务规避倾向明显等缺陷,其中GPT-4达到95%可靠性阈值。
摘要
人工智能(AI)的快速发展推动了众多领域的进步。在政府事务领域,大型语言模型(LLMs)在政策分析、数据处理和决策支持等方面具有巨大潜力。然而,其在政府环境中的应用面临诸多挑战,包括数据可访问性问题、缺乏标准化评估标准,以及对模型准确性、可靠性和安全性的担忧。为应对这些挑战,我们提出了一个专为政府事务中的LLMs设计的全面评估框架。该框架基于模块化原则构建,确保了其在不同行业的适用性。此外,我们还介绍了“多场景政府事务基准测试数据集”(MSGABench),这是一个专门为满足政府专业人士实际需求而设计的中文数据集。利用所提出的框架和MSGABench数据集,我们对15个知名LLMs进行了实证评估,得出了以下关键发现:(1)性能:许多模型的准确性和可靠性较低,尤其是在输入发生微小变化时,有些模型的准确率甚至低于35%;而GPT-4的可靠性超过了95%;(2)安全性和合规性:存在严重的安全风险和合规问题,如隐私漏洞和法律合规风险,这些可能阻碍LLMs在政府环境中的安全部署;(3)任务回避:某些模型表现出过度谨慎的行为,经常回避文档分类和政府相关查询等基本任务,从而限制了它们的实用性。这些发现揭示了LLMs在政府领域应用中的关键局限性和改进空间,有助于实现其安全、有效的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号