AI对齐:当代综述

《ACM Computing Surveys》:AI Alignment: A Contemporary Survey

【字体: 时间:2025年11月08日 来源:ACM Computing Surveys

编辑推荐:

  AI对齐旨在确保人工智能系统符合人类意图与价值观,随着技术发展,相关风险日益凸显。本文系统梳理了AI对齐的核心概念、方法与实践,重点分析RICE原则指导下的前向对齐(通过反馈训练和分布偏移技术优化系统行为)与后向对齐(覆盖全生命周期的安全评估、可解释性验证及多方治理机制),并同步更新资源网站www.alignmentsurvey.com。

  

摘要

人工智能对齐(AI Alignment)旨在使AI系统的行为符合人类的意图和价值观。随着AI系统能力的提升,不匹配(misalignment)带来的风险也在增加。为了提供关于对齐领域的全面且最新的概述,我们在本调查中深入探讨了对齐的核心概念、方法论和实践。首先,我们确定了AI对齐的四个关键目标:鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)和伦理性(Ethicality,简称RICE)。基于这四个原则,我们梳理了当前的对齐研究现状,并将其分为两个关键组成部分:前向对齐(forward alignment)和后向对齐(backward alignment)。前向对齐通过训练来实现AI系统的对齐,而后向对齐则旨在获取系统对齐情况的证据,并对其进行适当的管理,以避免加剧不匹配风险。在前向对齐方面,我们讨论了从反馈中学习以及在分布变化(distribution shift)环境下进行学习的技术,包括传统的偏好建模方法和基于人类反馈的强化学习,并进一步探讨了在难以实现有效人类监督的任务中实现可扩展监督的潜在框架。在分布变化环境下的学习中,我们还涵盖了数据分布干预措施,如对抗性训练(adversarial training),以扩展训练数据的分布范围,以及算法干预措施来应对目标泛化问题。在后向对齐方面,我们讨论了确保AI系统安全性的技术和管理实践,包括系统生命周期内的安全评估、可解释性以及符合人类价值观的要求。我们研究了政府、行业参与者和其他第三方当前及未来采用的管理实践,这些实践旨在管理现有的和未来的AI风险。本调查旨在提供一份全面且适合初学者的对齐研究主题综述。在此基础上,我们还发布了网站www.alignmentsurvey.com,并持续更新其中的内容,包括教程、论文集、博客文章和其他资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号