教人工智能模型说“我不确定”

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

教人工智能模型说“我不确定”

【字体：大中小】 时间：2026年04月24日 来源：MIT麻省理工

编辑推荐：

　　一种新的训练方法在不牺牲性能的情况下提高了人工智能置信度估计的可靠性，解决了推理模型产生幻觉的根本原因。

自信是有说服力的。在人工智能系统中，它经常会产生误导。

当今最有能力的推理模型与房间里最响亮的声音有一个共同的特点：它们给出的每个答案都是不可动摇的确定性，无论它们是对的还是猜测的。麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员现在已经将这种过度自信追溯到这些模型训练方式中的一个特定缺陷，并开发了一种不牺牲任何准确性的方法来修复它。

这项技术被称为RLCR（带校准奖励的强化学习），它训练语言模型在给出答案的同时产生校准过的置信度估计。除了给出答案外，模型还会考虑答案的不确定性，并输出置信度评分。在多个基准测试的实验中，RLCR在保持或提高准确率的同时，将校准误差减少了90%，无论是在训练模型的任务上，还是在它从未见过的全新任务上。这项研究将于本月晚些时候在国际学习表征会议上发表。

这个问题的根源出奇地简单。最近在人工智能推理方面取得突破背后的强化学习（RL）方法，包括OpenAI的o1等系统中使用的训练方法，会奖励得到正确答案的模型，并对错误的模型进行惩罚。没有中间地带。一个通过仔细推理得出正确答案的模型与一个偶然猜对的模型得到的奖励是一样的。随着时间的推移，这训练模型自信地回答他们被问到的每一个问题，无论他们是否有强有力的证据或有效地抛硬币。

过度自信是有后果的。当模型被部署在医学、法律、金融或任何用户根据人工智能输出做出决策的环境中时，一个无论实际确定性如何都表现出高度自信的系统就会变得不可靠，难以从外部检测到。一个模型说“我有95%的把握”，但只有一半的时间是正确的，这比一个答案完全错误的模型更危险，因为用户没有信号去寻求第二种意见。

“标准的训练方法简单而强大，但它没有激励模型表达不确定性或说‘我不知道’，”麻省理工学院博士生、论文的共同主要作者Mehul Damani说。因此，模型在不确定的情况下自然学会猜测。

RLCR通过在奖励函数中添加一个单独的术语来解决这个问题：Brier分数，这是一个完善的衡量标准，用于惩罚模型声明的置信度与其实际准确性之间的差距。在训练过程中，模型学会对问题和自身的不确定性进行推理，从而产生答案和置信度估计。自信地回答错误会被扣分。不必要的不确定的正确答案也是如此。

数学证明了这一点：该团队正式证明，这种类型的奖励结构保证了模型既准确又校准良好。然后，他们在一个70亿参数的模型上测试了这种方法，该模型在一系列问答和数学基准上进行了测试，其中包括该模型从未接受过训练的六个数据集。

结果显示出一种一致的模式。与基本模型相比，标准RL训练主动降低了校准，使模型在估计自身不确定性方面更差。RLCR扭转了这种影响，在不损失精度的情况下大大改善了校准。该方法也优于事后方法，在事后训练一个单独的分类器来分配置信度分数。“令人惊讶的是，普通的强化学习训练不仅无助于校准。它会积极地伤害它，”麻省理工学院的博士生、主要作者之一Isha Puri说。模特们变得更有能力，同时也更加自信。

该团队还证明了RLCR产生的置信度估计在推理时实际上是有用的。当模型产生多个候选答案时，选择自我报告信心最高的一个，或者在多数投票方案中根据信心对投票进行加权，可以提高计算尺度的准确性和校准。

另一项发现表明，对不确定性进行推理的行为本身是有价值的。研究人员在模型输出上训练分类器，发现在输入中包含模型的明确不确定性推理可以提高分类器的性能，特别是对于较小的模型。模型关于它知道什么和不知道什么的自我反思推理包含了真实的信息，而不仅仅是装饰。

除了Damani和Puri，论文的其他作者还有Stewart Slocum， Idan Shenfeld， Leshem Choshen以及资深作者Jacob Andreas和Yoon Kim。

联系信箱：

粤ICP备09063491号

热点排行