基于双聚类的大语言模型上下文示例选择方法在数据到文本生成任务中的高效应用研究

《Natural Language Processing》：How to quickly select good in-context examples in large language models for data-to-text tasks?

【字体：大中小】 时间：2025年10月15日 来源：Natural Language Processing 1.9

编辑推荐：

　　本文针对数据到文本生成任务中上下文示例选择效率低下的问题，提出了一种基于双聚类的上下文示例选择方法（DCCS）。研究人员通过两阶段聚类操作，在保证示例与输入数据相似性的同时增强文本多样性，并结合批量生成技术显著提升了大型语言模型的令牌利用效率。实验结果表明，该方法在维持生成准确性的同时，将提示构建时间最高降低至传统方法的1.6%，为大规模数据到文本生成任务提供了高效的解决方案。

在人工智能快速发展的今天，如何让机器将结构化数据自动转化为流畅可读的文本，已成为自然语言处理领域的重要挑战。数据到文本生成技术能够将数据库记录、电子表格等结构化数据转换成符合人类阅读习惯的自然语言描述，在自动报告生成、客户服务等场景中具有广泛应用前景。然而，传统方法需要为不同数据格式和文本风格训练独立模型，这个过程既耗时又成本高昂。

近年来，大型语言模型（LLMs）的出现为这一领域带来了新的希望。这些模型能够理解自然语言和结构化文本，并生成连贯流畅的输出。其中，上下文学习（ICL）技术通过在提示中包含少量输入-输出示例，使模型能够快速适应新任务，无需繁琐的微调过程。但研究表明，提示中示例的选择、格式和顺序会显著影响模型输出质量，如何高效选择高质量的上下文示例成为亟待解决的关键问题。

现有方法主要分为相似性驱动和多样性驱动两类。相似性驱动方法选择与测试输入最相似的训练样本作为示例，虽然效果较好但计算成本高昂；多样性驱动方法通过聚类选择代表性示例，计算效率高但生成文本精度不足。特别是在处理大规模数据集时，如何在保证生成质量的同时提升效率，成为研究者面临的重要挑战。

针对这一问题，合肥工业大学的研究团队提出了一种创新的双聚类上下文示例选择方法（DCCS）。该方法基于一个重要假设：上下文示例的质量主要由两个属性决定：与输入数据的相似性和示例之间的多样性。基于这一认识，研究团队设计了一个包含两个独立聚类阶段的新方法。

在预处理阶段，研究人员首先使用RoBERTa-large模型对训练集的数据部分进行编码，然后通过轮廓系数分析确定最佳聚类数量，将训练样本划分为K个主要类别。接着，在每个主要类别内对文本部分进行第二次聚类，选择m个最具代表性的样本作为候选示例集。这种方法确保了所选示例既与输入数据高度相关，又覆盖了丰富的文本表达方式。

在推理阶段，对于每个测试输入，只需计算其与K个聚类中心的距离，即可快速确定所属类别并获取相应的候选示例集。这种方法将传统的与全部训练样本比较的复杂过程，简化为仅与K个中心比较的高效操作。

此外，研究团队还开发了基于DCCS的批量生成方法（DCCS-Batch）。该方法将属于同一聚类的测试样本分组到单个提示中，使LLM能够同时处理多个数据点的文本生成任务。通过共享相同的上下文示例，批量生成方法显著提高了令牌使用效率，平均每个实例的令牌使用量降低了(n-1)/n×(token_ins+m×token_ic)，其中n为批量大小。

关键技术方法包括：基于预训练语言模型的语义编码技术、双阶段聚类算法、轮廓系数优化的聚类数确定方法、批量提示构建技术。实验使用E2E、WebNLG、DART和ToTTo四个标准数据集，涵盖从封闭域到开放域的不同复杂度场景。

预处理阶段的双聚类操作

研究人员首先使用RoBERTa-large模型对训练集的数据部分进行编码，获得维度为M×1024的嵌入表示。通过轮廓系数分析，为不同数据集确定了最优聚类数量：E2E为19、DART为6、WebNLG为8、ToTTo为11。第一次聚类确保示例与输入数据的语义相似性，第二次聚类则保证文本表达的多样性。

推理阶段的高效示例选择

对于每个测试输入，只需计算其嵌入表示与K个聚类中心的距离，选择最近簇的候选示例集构建提示。这种方法将时间复杂度从传统方法的O(MND)降低到O((M+N)D)，其中M为训练集大小，N为测试集大小，D为嵌入维度。

批量生成技术

通过将属于同一簇的测试样本分组处理，DCCS-Batch方法显著提升令牌使用效率。实验表明，批量大小为5时，令牌使用量降至单生成的32.43%；批量大小为10时，进一步降至23.59%。

实验设计与评估指标

研究在GPT-3.5、GLM-3和LLaMA-3.1-8B三个模型上进行了全面评估，使用BLEU、ROUGE-L、BERTScore和PARENT等自动指标，同时进行了人工评估和事实一致性分析。

性能对比分析

在单生成场景下，DCCS在多数数据集和评估指标上表现优异。在E2E数据集上，DCCS在5-shot设置下获得了最高的BERTScore（GPT-3.5:67.56，GLM-3:70.15，LLaMA-3.1:69.02）。在WebNLG数据集上，DCCS展现了强大的领域适应性，在三个模型下均获得最高BLEU分数。

批量生成效果

DCCS-Batch在批量生成场景下表现突出。在GPT-3.5上，E2E数据集批量大小为5时BLEU达到53.2，显著优于随机批量基线（46.4）。在WebNLG和ToTTo数据集上分别获得44.5和30.7的BLEU分数，证明其在控制提示长度的同时保持输出准确性。

效率优势

DCCS方法将提示构建时间从传统方法的与训练集大小相关的时间消耗，降低到稳定的24ms左右。在ToTTo数据集（120,761个训练样本）上，DCCS仅需24.45ms，而KATE方法需要超过1000ms。

人工评估结果

在流畅性、信息性和相关性三个维度的人工评估中，DCCS在多数比较中优于KATE和随机方法。特别是在DART和WebNLG等异构数据集上，DCCS在信息性和相关性方面表现突出。

事实一致性分析

DCCS在事实一致性方面表现最佳，产生最少的幻觉和事实遗漏错误，准确输出比例最高。这与人工评估中信息性和相关性的优势相一致，证明双聚类策略不仅提升感知质量，还改善事实保真度。

研究通过系统的实验证明，DCCS方法在保持生成质量的同时，显著提升了上下文示例选择的效率。双聚类策略有效平衡了语义相似性和文本多样性，而批量生成技术则大幅提高了令牌利用效率。该方法为大规模数据到文本生成任务提供了实用解决方案，特别适用于需要快速响应和成本控制的实际应用场景。

尽管DCCS方法取得了显著成效，研究也指出了其局限性。例如，在包含复杂结构标记的数据集（如ToTTo）上，RoBERTa作为语义编码器的性能会受到一定影响。此外，批量大小超过10时会出现生成失败问题，模型可能无法产生正确数量的句子。

未来的研究方向包括优化聚类过程、将该方法应用于其他类型的生成任务，以及整合更多上下文信息来进一步提升生成的个性化和相关性。同时，还需要探索链式思维提示和LLM自修正机制来解决事实完整性和一致性问题。

该研究的实际意义在于为大规模数据到文本生成任务提供了高效的解决方案，特别是在需要快速适应新领域和低资源场景下具有重要应用价值。通过降低计算成本和令牌消耗，DCCS方法使得基于大型语言模型的数据到文本生成技术更加实用化和可扩展。

热点排行

新闻专题