面向大语言模型的文本数据增强技术综述：方法、挑战与机遇

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARTIFICIAL INTELLIGENCE REVIEW》：Text data augmentation for large language models: a comprehensive survey of methods, challenges, and opportunities

【字体：大中小】 时间：2025年12月12日 来源：ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐：

　　本刊编辑推荐：为解决训练数据不足导致的大语言模型过拟合问题，研究人员系统综述了文本数据增强技术，提出了基于提示复杂度与检索模型复杂度的双维度分类框架（Simple Augmentation, Prompt-based Augmentation, Retrieval-based Augmentation, Hybrid Augmentation），通过多组实验验证了检索增强生成（RAG）与混合增强策略的显著效果，为突破数据稀缺瓶颈提供了系统化解决方案。

在人工智能飞速发展的今天，大语言模型（LLMs）凭借其强大的语言理解和生成能力，正在重塑自然语言处理（NLP）的格局。然而，这些模型巨兽的成功背后隐藏着一个关键软肋：它们如同需要大量养分才能茁壮成长的植物，对高质量训练数据有着近乎贪婪的需求。在实际应用中，许多专业领域或特定任务面临数据稀缺的困境，有限的数据集不仅无法充分挖掘模型的潜力，更可能导致模型“营养不良”——即过拟合，使其在面对复杂现实场景时表现不佳。这一矛盾已成为制约大语言模型进一步发展和落地应用的核心瓶颈之一。

为了破解这一难题，文本数据增强（DA）技术应运而生，其核心思想是通过对现有数据进行变换和扩展，自动生成更多可用的训练样本，从而提升模型的泛化能力和鲁棒性。早期的数据增强方法较为简单，如同对文本进行“换装游戏”，例如同义词替换、随机删词或调整词序。尽管这些传统方法能在一定程度上增加数据量，但往往难以触及语义深层，无法充分激发大语言模型的潜能。随着提示工程（Prompt Engineering）和检索增强生成（Retrieval-Augmented Generation, RAG）等技术的兴起，数据增强技术也进入了全新的发展阶段。研究者们开始探索如何通过精心设计的提示指令，引导大语言模型生成多样性强、质量高的数据；或者通过检索外部知识库，为模型注入新鲜、准确的实时信息，减少其“幻觉”（Hallucination）现象。在此背景下，来自岭南大学的研究团队在《Artificial Intelligence Review》上发表了这篇系统性的综述文章，旨在为学术界和工业界提供一份全面、深入的文本数据增强技术路线图。

为了系统梳理这一领域，研究人员首先建立了严谨的文献检索与筛选流程。他们以“文本数据增强”、“大语言模型”、“提示工程”等为核心关键词，在arXiv、ACL Anthology、IEEE Xplore等多个权威学术数据库中进行检索，并制定了明确的纳入与排除标准，最终筛选出与LLM文本数据增强紧密相关的高质量文献。基于此，研究团队创新性地提出了一个双维度分类框架，从提示复杂度（Prompt Complexity）和检索模型复杂度（Retrieval Model Complexity）两个视角，将现有的文本数据增强技术划分为四大类：

1.
简单增强（Simple Augmentation）：不涉及复杂提示或检索，仅对原始数据进行轻微修改，如文本转换（插入、删除、替换）、回译（Back-translation）和基于序列的生成方法。
2.
基于提示的增强（Prompt-based Augmentation）：利用提示工程指导LLMs生成数据，包括单步提示（零样本、少样本）、多步提示（如思维链提示Chain-of-Thought）和结构化提示（角色提示、模板提示等）。
3.
基于检索的增强（Retrieval-based Augmentation）：通过检索器从外部知识源获取相关信息以增强数据，包括稀疏检索（如BM25）、稠密检索（如DPR、SimCSE）、图检索和搜索引擎检索。
4.
混合增强（Hybrid Augmentation）：结合了提示工程和检索技术的优势，通常利用LLMs的少样本学习能力，并引入外部检索知识，形成更强大的增强策略，如各类RAG变体。

研究的另一大贡献在于对数据增强的方面（Aspect）和粒度（Granularity）进行了系统梳理。增强方面包括数据生成、复述、翻译、编辑、标注和检索等；而增强粒度则从最细粒度的词元级（Token Level）到最粗粒度的文档级（Document Level），不同粒度决定了数据变动的幅度和保留原始信息的程度。此外，文章还详细总结了常用的后处理技术，如一致性度量、过滤、启发式方法和人工修订，以确保生成数据的质量。

为了实证比较不同技术的效果，研究团队在斯坦福情感树库（SST-5）数据集上设计了广泛的实验。结果表明：

•
简单增强方法（如随机插入）成本低且有效，最佳策略（RI aug2）将T5-large模型的加权F1分数从54.17提升至59.16。
•
基于提示的增强效果依赖于生成模型的能力，GPT-4o-mini生成的数据优于Vicuna-13B，但会产生API费用。少样本提示效果最佳（F1=56.78），但成本最高。
•
基于检索的增强在零样本设置下表现出色，稀疏检索器BM25配合GPT-4o-mini达到了58.68的F1分数，且成本较低，表明外部语境的有效性。
•
混合增强策略结合了检索语境和少量原始标注样本（Golden Examples），取得了最佳效果（F1=59.28），凸显了在上下文学习中结合外部知识和任务特定示例的威力。

实验揭示的关键启示在于：简单增强是低成本高效益的选择；提示增强灵活但成本较高且依赖模型能力；稀疏检索在特定任务上可能优于稠密检索；混合增强代表了最有效的方向，但其性能依赖于高质量的提示构建和检索结果。

研究结果

1. 技术分类框架的有效性

通过系统性的文献回顾和实验验证，本研究提出的四分类框架能够清晰地涵盖当前主流文本数据增强技术。该框架不仅考虑了技术演进的历史脉络（从简单到复杂），也反映了当前LLM时代的技术融合趋势（如Hybrid Augmentation）。图2展示了近年来各类技术下的代表性研究，印证了该分类体系的全面性和实用性。

2. 不同增强技术的性能对比

实验结果表明，没有一种技术在所有场景下都绝对最优，每种技术都有其适用的场景和权衡：

•
简单增强在计算资源有限、需要快速提升基线性能的场景下最为实用。
•
基于提示的增强为控制生成数据的风格和内容提供了极大灵活性，尤其适合需要生成特定类型文本（如符合某种格式的问答对、特定领域的对话）的任务。
•
基于检索的增强有效解决了LLMs的知识滞后性和幻觉问题，为需要事实准确性的任务（如开放域问答）提供了坚实基础。
•
混合增强代表了未来的发展方向，通过结合LLMs的推理能力和外部知识的准确性，在复杂任务上实现最佳性能。

3. 数据质量与评估的挑战

研究强调，数据增强并非“越多越好”。生成数据的质量、多样性以及与原始任务分布的一致性至关重要。过度增强或低质量增强反而会引入噪声，降低模型性能。同时，如何有效评估增强后数据的质量以及其对下游任务模型的真实提升，仍是一个挑战。传统的自动指标（如F1分数）有时无法充分反映生成文本的语义一致性和流畅度，而人工评估又成本高昂。文章指出，未来需要探索更可靠的自动化评估方法，如基于LLM的评估（LLM-as-a-judge）。

4. 面临的挑战与未来方向

文章在最后部分深入探讨了当前文本数据增强领域面临的挑战与未来机遇：

•
生成数据的质量与多样性：如何保证LLM生成数据既多样又忠于原任务语义，并确定最优增强数据量。
•
任务适应性：如何设计能泛化到多任务或开放域设置的增强策略，而非仅针对单一任务。
•
减少幻觉：通过改进提示设计、强化检索机制以及引入领域约束来抑制LLM生成不实信息。
•
检索依赖性：增强效果对检索器质量和检索结果相关性的高度敏感性，需要更好的过滤和融合机制。
•
计算成本：LLM生成和推理的高昂成本问题，需研究更高效的增强与训练方法。
•
伦理问题与偏见缓解：增强过程可能放大训练数据中的偏见，需关注数据安全、偏见检测与公平性。
•
可解释性与可信度：尤其在医疗、法律等高风险领域，需要增强模型决策过程的透明度和可信度。

结论与意义

本综述系统性地梳理和评估了面向大语言模型的文本数据增强技术，构建了一个清晰的双维度分类框架，并通过实证分析揭示了不同技术路径的优势与局限。研究表明，混合增强策略结合了提示工程和检索增强的优点，展现出巨大的潜力。然而，该领域仍面临数据质量、任务泛化、幻觉抑制、计算成本、伦理公平等一系列挑战。

这项研究的重要意义在于它为研究者和实践者提供了一份宝贵的指南，帮助其在不同应用场景和资源约束下，选择合适的数据增强技术。它不仅总结了现有方法，更重要的是指明了未来发展的方向，例如探索任务无关的增强方法、开发更高效的评估范式、以及构建更安全可靠的增强流程。随着大语言模型在更多关键领域的深入应用，高效、可控、可信的文本数据增强技术必将成为推动人工智能持续创新和负责任部署的关键力量。

联系信箱：

粤ICP备09063491号

热点排行