TencentLLMEval:对人类辅助大型语言模型(LLM)实际能力的层次化评估

《ACM Transactions on Intelligent Systems and Technology》:TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  构建覆盖7大领域、200余类别、800+任务的层次化评估体系,设计标准化流程与3000+实例测试集,分析GPT-4自动化评估可行性,公开腾讯LLMEval数据集及方法论,为安全对齐的大模型提供基准测试框架。

  

摘要

大型语言模型(LLMs)在各种自然语言任务中展现了令人印象深刻的能力。然而,评估它们与人类偏好的契合度仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,用于评估LLMs在处理多样化实际任务时遵循指令的能力。我们构建了一个分层任务树,涵盖了7个主要领域,包含200多个类别和800多个任务,这些任务涵盖了问题回答、推理、多轮对话和文本生成等多种能力,从而能够对LLMs进行全面而深入的评估。我们还设计了详细的评估标准和流程,以确保人类评估者能够做出一致且无偏见的判断。我们发布了包含3000多个实例的测试集,这些实例涵盖了不同的难度级别和知识领域。我们的工作为评估英语和中文LLMs的人类契合度提供了一种标准化方法。我们还探讨了使用强大的LLM(GPT-4)自动化部分评估任务的可行性。我们的框架支持在LLMs集成到实际应用中进行全面评估。我们已经将任务树、TencentLLMEval数据集和评估方法公开发布,这些工具已被证明在评估Tencent Hunyuan LLMs的性能方面非常有效。通过这样做,我们旨在促进安全且符合人类偏好的LLMs开发的进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号