《Science》又一突破!美国军方AI在1对多赌博中击败了人类世界冠军

更好地分配军事资源、抗击癌症

【字体: 时间:2019年07月17日 来源:生物通

编辑推荐:

  《Science》杂志发表了一项由卡内基梅隆大学的科学家领导的研究,他们开发的人工智能程序(Pluribus)在6人不限牌德州扑克中击败了人类顶级专业选手。美国陆军参与资助了这项研究的数学建模部分,Facebook则承担为扑克玩家提供奖金。

  

《Science》杂志发表了一项由卡内基梅隆大学的科学家领导的研究,他们开发的人工智能程序(Pluribus)在6人不限牌德州扑克中击败了人类顶级专业选手。美国陆军参与资助了这项研究的数学建模部分,Facebook则承担为扑克玩家提供奖金。

“这都是战略问题,”美国陆军研究办公室网络科学部处长Purush Iyer博士说。“长期以来,博弈论中的一个限制因素是其可扩展性(即处理指数增长状态空间的能力)。玩扑克牌是一个很好的例子,可以解释数学模型如何被设计情景策略来应对缺乏完整信息的对手——不知道对手会做什么,他们有什么能力。”

他说,这项研究与许多现实问题和军事挑战(如网络安全和国家防御)极为相关。

扑克牌一直是人工智能的一个难以攻克的瓶颈。与象棋、围棋等游戏不同,扑克大战不是一个“完整的”信息游戏,玩家不能确定哪些牌在对家手里,对家也许会虚张声势,这非常像军事战略。

去年毕业于计算机科学系并随后加入Facebook AI的Noam Brown博士与计算机科学系教授Tuomas Sandholm博士共同开发了Pluribus,他说:“开发六人游戏的AI游戏策略与一对一游戏的基础完全不同。”

Pluribus首先通过与它自己的6个副本来计算策略蓝图,这足以应对第一轮博弈。从此刻起,Pluribus将在更细粒度的游戏抽象概念中对可能的出牌进行更详细的搜索。它只能往前预测几步,而禁止看到比赛结果。有限的前瞻性搜索对信息完整的游戏是有帮助的,但对不完全信息游戏来说则是灾难。一种新型有限的前瞻性搜索算法是Pluribus在超多人玩家扑克牌游戏中取胜的关键,并且Pluribus只需非常少的处理能力和内存就能进行训练。

该软件还试图做到了不可预测。例如,当AI拿到了最好的牌,无疑下注是有意义的,但是如果AI只在拿好牌时下注,对手们就会发现破绽。因此,Pluribus需要计算可能拿到的每一手牌的表现,从而规划一个在所有可能性之间平衡的策略。

在美国陆军的资助下,Sandholm和他的其他学生们正在开发利用Pluribus进行生物指导的相关技术,比如一些优化治疗计划,引导患者的免疫系统更好地对抗癌症、自身免疫疾病和感染等。

之前的博弈论研究正在被交通安全管理局、美国海岸警卫队和洛杉矶地铁使用,以减少这些组织的安全成本,同时增加敌对方成本从而减少本国被攻击的机会。

此外,博弈论的基础研究已经用于民间,比如减少东南亚虎偷猎、解决无家可归问题以及在洛杉矶开展艾滋病预防工作。

“在不远的将来,Sandholm他们的工作将以多种方式用于解决社会问题,Sandholm博士的新工作是博弈论一个令人兴奋的进步,其能量是巨大的,”Iyer说。

原文检索:Superhuman AI for multiplayer poker

(生物通:伍松)

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号