通过元学习自主发现超越人工设计的强化学习算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature》：Discovering state-of-the-art reinforcement learning algorithms

【字体：大中小】 时间：2025年10月24日 来源：Nature 48.5

编辑推荐：

　　来自DeepMind等机构的研究人员通过大规模元学习方法，让机器从智能体群体经验中自主发现了性能超越人工设计规则的强化学习算法。该算法在Atari基准测试中表现优异，并在未见过的复杂环境中超越多种主流RL算法，为实现高级人工智能的算法自动化设计开辟了新路径。

人类和其他生物体通过多代试错进化形成了强大的强化学习（RL）机制，而人工智能体通常依赖手工设计的学习规则。尽管历经数十年探索，自主发现高效RL算法的目标始终难以实现^7-12。本研究首次证明机器能够通过元学习（meta-learning）从大量复杂环境中智能体群体的累积经验中，自主发现性能超越人工设计规则的先进RL算法。该方法通过优化智能体策略（policy）与预测的更新规则，在经典Atari基准测试中刷新纪录，并在未参与训练的新挑战性基准测试中超越多种现有先进RL算法。这一突破表明，未来高级人工智能所需的强化学习算法或可通过智能体经验自主发现，而非依赖人工设计。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号