TencentLLMEval：对人类辅助大型语言模型（LLM）实际能力的层次化评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　构建覆盖7大领域、200余类别、800+任务的层次化评估体系，设计标准化流程与3000+实例测试集，分析GPT-4自动化评估可行性，公开腾讯LLMEval数据集及方法论，为安全对齐的大模型提供基准测试框架。

摘要

大型语言模型（LLMs）在各种自然语言任务中展现了令人印象深刻的能力。然而，评估它们与人类偏好的契合度仍然是一个挑战。为此，我们提出了一个全面的人类评估框架，用于评估LLMs在处理多样化实际任务时遵循指令的能力。我们构建了一个分层任务树，涵盖了7个主要领域，包含200多个类别和800多个任务，这些任务涵盖了问题回答、推理、多轮对话和文本生成等多种能力，从而能够对LLMs进行全面而深入的评估。我们还设计了详细的评估标准和流程，以确保人类评估者能够做出一致且无偏见的判断。我们发布了包含3000多个实例的测试集，这些实例涵盖了不同的难度级别和知识领域。我们的工作为评估英语和中文LLMs的人类契合度提供了一种标准化方法。我们还探讨了使用强大的LLM（GPT-4）自动化部分评估任务的可行性。我们的框架支持在LLMs集成到实际应用中进行全面评估。我们已经将任务树、TencentLLMEval数据集和评估方法公开发布，这些工具已被证明在评估Tencent Hunyuan LLMs的性能方面非常有效。通过这样做，我们旨在促进安全且符合人类偏好的LLMs开发的进展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号