一种通过构建递归共注意（CoT）机制对开放领域大语言模型（LLM）对话进行全面评估的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：An Exhaustive Evaluation Method for Open-Domain LLM Dialogue by Constructing Recursive CoT

【字体：大中小】 时间：2026年02月17日 来源：Computer Speech & Language 3.4

编辑推荐：

　　对话质量自动化评估框架Rec-CoT-Eval通过LLMs交互式构建链式推理流程，提升参考无评估精度并支持人机协同优化。

赵胜杰|谢振平

江南大学人工智能与计算机科学学院，中国无锡

摘要

近年来，基于大型语言模型（LLMs）的评估方法在无参考文献的开放领域对话质量评估中展现了出色的性能。然而，现有方法通常依赖于简单、人工制定的评估指令，缺乏反映复杂人类思维过程的深度和多样性。为了解决这些局限性，我们提出了Rec-CoT-Eval框架，这是一种无需参考文献的对话质量评估方法，它通过与LLMs的交互自动构建思维链（CoT）。与依赖人工制定指令的现有方法不同，我们的方法能够自动构建用于评估的CoT。我们将每个评估指标视为一个根任务，并使用提示来指导LLMs自顶向下地将其分解为子问题。通过解决这些子问题，构建出一个全面的评估CoT。最终，这个CoT被用作LLMs的提示，使它们能够作为对话质量评估代理，对目标对话进行无参考文献的评估。此外，该框架还包括一个可选的人机交互机制，旨在满足实际工业应用中对评估标准进行细粒度和个性化定制的需求。该机制允许评估者在必要时动态修改生成的CoT，整合专家知识以提高评估的准确性和个性化程度。实验结果表明，我们提出的方法与人类判断的相关性更高，并且优于现有方法。

引言

开放领域对话质量的无参考文献评估一直是自然语言处理领域的一个重要研究方向。对话的一对多性质使得基于参考的标准评估指标（例如BLEU和METEOR）无法有效评估开放领域对话的质量（Liu等人，2016年）。因此，最近提出了许多专门用于评估对话质量指标（例如相关性和流畅性）的方法，这些方法要么基于规则，要么基于模型。

随着近年来LLMs在NLP任务中取得的显著突破，无参考文献对话质量评估技术出现了新的可能性。最近的研究尝试利用LLMs作为评估器，使用简单的提示来指导LLMs为评估指标打分。尽管这些简单的提示方法取得了不错的结果，但它们与人类评估的相关性仍然不够理想。现有的基于LLMs的无参考文献评估方法通常依赖于人工制定的评估指令。这一过程不仅耗时且劳动密集，而且设计的指令往往过于简单和僵化，无法充分模拟人类思维过程的复杂性。其次，在LLMs训练过程中引入的偏见可能在评估过程中被放大和延续，从而影响评估的准确性和公平性。

为了解决上述问题，我们从CoT的角度提出了Rec-CoT-Eval框架（Wei等人，2022年）。这是一种基于使用LLMs交互式自动构建CoT的对话质量评估方法。该框架将待评估的指标视为一个根问题，目标是为其制定一个评估CoT。通过系统的提示，我们指导LLMs将每个根问题递归地分解为一系列具体的子问题，然后逐一解决这些问题。在此过程中，LLMs被引导自动构建一个完整的评估CoT并生成说明不同评分水平的示例，从而提高方法的自动化程度和可解释性。同时，为了满足实际工业应用场景中对评估标准进行精细化和个性化定制的需求，我们引入了一个可选的人机交互机制。这允许评估专家审查和修改自动生成的CoT和示例。这种人机协作评估范式提高了评估过程的灵活性和用户满意度，从而进一步提高了评估结果的准确性和可信度。

总结来说，我们的贡献如下：

(1)

我们提出了Rec-CoT-Eval框架，这是一种基于使用LLMs交互式自动构建CoT的无参考文献对话质量评估方法。

(2)

我们在多个公共基准测试和多语言场景（涵盖英语、西班牙语和中文）中验证了Rec-CoT-Eval框架的有效性和优越性，证明了其优于现有评估方法。

(3)

我们设计了一个可选的人机交互机制，并提供了一个可视化界面。在确保自动CoT生成效率的同时，它允许专家监督以减少LLMs的固有偏见，并便于整合个性化的专家推理。

对话质量评估最初被提出作为一个独立的对话指标，可以分为两类：基于规则的和基于模型的（Yeh等人，2021年）。基于规则的指标至少已经用于标准语言评估二十年（Jiang等人，2022年），例如BLEU（Papineni等人，2002年）、METEOR（Banerjee & Lavie，2005年）和ROUGE（Lin，2004年）。BLEU使用人类参考来计算系统响应的n-gram准确性。后来，METEOR和ROUGE被提出

Rec-CoT-Eval整体框架

Rec-CoT-Eval是一种基于LLMs的交互式自动CoT构建的评估方法。我们将每个评估指标视为一个需要解决的根问题，并递归地将其分解为子问题。通过解决这些子问题，构建出一个全面的评估CoT。最后，构建的CoT被用作LLMs的提示输入，以实现目标对话质量的无参考文献评估。如图1所示，该框架由三个主要部分组成

基准数据集

我们使用了第11届对话系统技术挑战赛（Rodríguez-Cantelar等人，2023年）第4赛道提供的数据集。组织者将英语对话数据集翻译成西班牙语和中文，将中文对话数据集翻译成英语，生成了涵盖三种语言的多个数据集。原始数据集上的注释也被用于测试其他语言的数据集。

FED 对话的细粒度评估（FED）数据集（Mehri & Eskenazi，2020a）提供了注释

Rec-CoT-Eval框架的有效性

我们在FED数据集上运行了我们的框架，以验证其有效性，并将其与其他方法进行了比较。评估基于人类评分和自动化指标之间的皮尔逊相关系数和斯皮尔曼相关系数，包括适当性（APP）、内容（CON）、语法（GRA）和相关性（REL）等多个维度。

结果表明，Rec-CoT-Eval在不同指标和数据集上始终优于大多数基线方法，取得了最高的平均皮尔逊相关系数和斯皮尔曼相关系数

结论与未来工作

在本文中，我们提出了Rec-CoT-Eval框架，这是一种基于LLMs自动构建CoT的交互式无参考文献评估方法。该框架指导LLMs将对话质量评估指标递归地分解为一系列具体的子问题，然后依次解决这些问题。此外，它还指导LLMs自动生成少量示例并将它们纳入CoT中，从而自动化构建一个模拟评估链的过程

CRediT作者贡献声明

赵胜杰：写作 – 审稿与编辑、撰写原始草稿、可视化、验证、软件开发、项目管理、方法论研究、数据分析、数据整理。谢振平：写作 – 审稿与编辑、监督、资源获取、概念化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言