TencentLLMEval:对人类辅助大型语言模型(LLM)实际能力的层次化评估
《ACM Transactions on Intelligent Systems and Technology》:TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
构建覆盖7大领域、200余类别、800+任务的层次化评估体系,设计标准化流程与3000+实例测试集,分析GPT-4自动化评估可行性,公开腾讯LLMEval数据集及方法论,为安全对齐的大模型提供基准测试框架。
摘要
大型语言模型(LLMs)在各种自然语言任务中展现了令人印象深刻的能力。然而,评估它们与人类偏好的契合度仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,用于评估LLMs在处理多样化实际任务时遵循指令的能力。我们构建了一个分层任务树,涵盖了7个主要领域,包含200多个类别和800多个任务,这些任务涵盖了问题回答、推理、多轮对话和文本生成等多种能力,从而能够对LLMs进行全面而深入的评估。我们还设计了详细的评估标准和流程,以确保人类评估者能够做出一致且无偏见的判断。我们发布了包含3000多个实例的测试集,这些实例涵盖了不同的难度级别和知识领域。我们的工作为评估英语和中文LLMs的人类契合度提供了一种标准化方法。我们还探讨了使用强大的LLM(GPT-4)自动化部分评估任务的可行性。我们的框架支持在LLMs集成到实际应用中进行全面评估。我们已经将任务树、TencentLLMEval数据集和评估方法公开发布,这些工具已被证明在评估Tencent Hunyuan LLMs的性能方面非常有效。通过这样做,我们旨在促进安全且符合人类偏好的LLMs开发的进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号