面向通用AI模型控制与监测的线性概念表征方法

《SCIENCE》：Toward universal steering and monitoring of AI models

【字体：大中小】 时间：2026年02月21日 来源：SCIENCE 45.8

编辑推荐：

　　为解决大型AI模型内部知识表征“黑箱”难题，研究人员提出了基于递归特征机（RFM）的新方法，以高效、可扩展的方式从大语言模型、视觉语言模型和推理模型的激活中提取语义概念的线性表征。结果表明，该方法不仅能有效“引导”（steering）模型输出、暴露其安全隐患并提升编码和推理能力，还能更精确地“监测”（monitoring）模型幻觉和有害内容，其性能优于直接使用AI模型作为裁判（judge models），为提升AI模型的安全性与能力开辟了新路径。

如今，人工智能（AI）模型已在诸多科学与知识任务上展现出专家级的表现。然而，它们强大的能力背后隐藏着一个巨大的谜团：我们并不完全清楚这些模型是如何在内部“思考”和组织知识的。理解模型内部的知识表征，是进一步提升其能力和构建有效安全护栏的关键。但目前的研究面临挑战：模型的响应会因提示词（prompting）而发生复杂且难以预测的改变。例如，简单要求大语言模型（LLM）“展示思考过程”可能会提高其回答准确性；而某些精心设计的对抗性提示则可能绕过其内置的安全防护，诱导模型输出有害内容。因此，如何深入模型内部，直接理解和干预其知识表达，成为AI安全与能力提升的核心问题。

针对这一挑战，研究人员在《SCIENCE》上发表了一项开创性研究，提出了一种名为递归特征机（Recursive Feature Machine， RFM）的通用方法。这种方法能够从多种大规模AI模型（包括语言模型、视觉-语言模型和推理模型）的激活（activations）中，高效、可扩展地提取出语义概念的线性表征。该研究揭示了这些内部表征的惊人力量：通过简单的向量叠加即可精确“引导”模型行为，并能以前所未有的精度“监测”模型输出的风险。这项工作不仅加深了我们对大模型如何学习表示知识的理解，也为提升AI性能与安全性提供了极具潜力的技术工具。

为了开展这项研究，研究人员主要应用了以下关键技术方法：首先是递归特征机（RFM）算法，用于从模型内部激活中提取与特定概念相关的线性表征向量（concept vector）；其次，他们构建了涵盖512个不同概念的自动化数据生成与评估流水线，利用如GPT-4o等模型生成训练数据并评估引导效果；最后，在评估环节，他们使用了多种基准数据集（如HaluEval、PubMedQA、RAGTruth、FAVABENCH和ToxicChat）来系统量化模型监测和引导的效能。

研究结果

概念引导与监测通过RFMs实现

研究人员利用RFM算法实现了对AI模型的概念引导与监测。他们首先将大语言模型（LLM）的运算过程分解为若干计算“块”（blocks）。对于给定的概念，他们准备了一系列提示词（prompt）与标签（0或1，表示是否包含该概念）作为训练数据。通过分析这些提示在模型各个块产生的激活，RFM算法能够提取出一个与该概念强相关的“概念向量”。引导时，只需将该向量以一个常数ε（控制系数）缩放后，添加到模型的激活中，即可使模型的输出向该概念方向偏移。而监测则是将多个块的激活投影到多个概念向量上，训练分类器来预测输入或输出中是否存在目标概念。

引导大型模型

在定性演示中，RFM引导展示了广泛的应用前景。例如，引导Llama-Vision模型产生“反拒绝”（anti-refusal）概念，成功暴露了模型的安全漏洞，使其生成了制造危险物质的详细指导。研究还展示了如何引导模型采纳极端自由或保守的政治立场。值得注意的是，研究发现概念表征具有两个关键特性：

跨语言可迁移性：仅用英语数据训练得到的“阴谋论者”概念向量，同样能有效引导模型在中文等不同语言中产生相应风格的输出。

多概念混合引导：通过线性组合不同概念（如“阴谋论者”与“莎士比亚”）的向量，可以实现对输出风格的混合引导。

此外，引导还被应用于代码翻译（如从Python到C++）和链式思考（chain-of-thought）推理等任务，均有效提升了模型性能。

在512个概念上对可引导性的定量评估

为系统评估方法的普适性，研究者利用GPT-4o生成了512个跨5个类别的概念，并自动化评估了不同引导方法（RFM、逻辑回归、均值差法、主成分分析）在不同规模Llama模型上的表现。结果表明：

1.
更新、更大规模的模型普遍具有更高的可引导性（steerability）。
2.
RFM方法在整体引导成功率上显著优于其他方法。
3.
使用RFM并优化超参数及训练样本量后，可引导性得到进一步提升。
4.
其他模型家族（如Falcon和Mistral）在更大规模下也展现出更强的可引导性。

通过引导提升高精度任务的性能

在Python到C++的代码翻译任务中，引导显著提升了模型在HackerRank编程挑战中的表现。在Llama-3.3-70b-4-bit模型上，通过引导生成的C++代码的正确率，不仅超过了模型原本生成的Python代码，也优于直接提示模型“用C++回答”的结果。这表明通过内部表征的干预，可以在不改变模型架构和进行微调（fine-tuning）的情况下，精准提升其在特定任务上的表现。

通过探查内部表征实现精准监测

研究者将基于概念向量的监测方法应用于检测模型幻觉和人类文本的有害内容。在六个基准数据集上的评估结果显示：

1.
探查（probing）模型内部激活的方法，在性能上优于使用同架构模型作为“裁判”（judge models）直接评估输出。
2.
基于开源模型构建的监测器，其性能超越了GPT-4o以及专门为毒性检测微调的ToxicChat-T5-Large模型。
3.
在FAVABENCH数据集上，RFM探查是唯一一种性能超过GPT-4o的方法。

结论与讨论

现代AI模型蕴含了海量人类知识，而理解如何与其内部知识表征互动，是充分发挥其潜力的关键。与依赖外部提示的传统方法相比，直接利用其内部表征可能是一种更有效的替代方案。

这项研究揭示了模型表征的一个显著现象：大量复杂概念在大规模AI模型中是以线性方式表征的。即使是“英语到印地语翻译”这类复杂映射，也能通过简单的线性向量叠加实现引导。这为“线性表征假说”（linear representation hypothesis）提供了强有力的新证据，即语义关系以线性变换的形式编码于网络表征空间中。

然而，为何通过如此少的分类数据就能可靠地提取出有效的概念向量，以及为何这些向量具备如此强大的跨语言和跨概念的引导能力，仍是一个未解之谜。研究者指出，分类（classification）方向与引导（steering）方向在理论上可以截然不同。理解哪些概念被LLM线性表征，以及为何通过分类即可获得引导向量，是解开现代AI奥秘的两个关键缺失环节。

总而言之，这项研究通过系统性地提取和操控模型内部的线性概念表征，不仅暴露了模型的安全漏洞、缓解了行为偏差、提升了其在多项任务上的性能，还提供了一种比传统方法更可靠的模型输出监测方案。这有力地表明，模型“知道”的远比其在输出中“表达”的更多，而深入理解其内部表征，将为从根本上提升AI的性能与安全性开辟新路径。

热点排行

新闻专题