不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源

除了本研究中提出的国王1v1代理,腾讯的人工智能实验室和国王的荣耀将联合推出“启蒙”人工智能游戏开放平台。

国王的荣耀将打开游戏数据、游戏核心和工具。腾讯的人工智能实验室将为强化学习和模仿学习开辟一个计算平台和计算能力。将邀请大学和研究机构共同促进相关的人工智能研究。通过对平台的定期评估,“启蒙”将成为展示多主体决策研究实力的平台。

目前,“启蒙”平台已经开始在高校内部测试,预计将于2020年5月全面开放,支持测试环境中的1v1和5v5等多种模式。2020年12月,腾讯计划以王者的荣耀举办第一次人工智能应用级测试。想一想有意思吗?

SOLO人类在国王的荣耀中

为了评估代理人的能力,研究人员将模型部署到国王的荣耀中,并与顶级职业球员比赛。竞争确保代理人对每个决策的响应时间与人类相似。

表3显示了人工智能和5名顶级职业选手之间的比赛结果。应该指出,这些职业球员都是他们擅长的英雄。可以看出,人工智能可以击败许多不同类型英雄的职业球员。

表3:人工智能和职业玩家使用不同类型英雄比赛的结果

觉武选择了每个人类玩家擅长的英雄,五盘打1v1,三胜。所使用的英雄包括《丢西姆的故事》、《迪徐人杰》、《月神》、《韩信》和《花木兰》。

当然,与五名顶级玩家的较量并不意味着代理已经无敌,所以在中国乔伊2019,腾讯人工智能实验室举办了一场大规模的公开比赛。如果一个玩家在1v1击败了游戏人工智能,他可以得到一部价值4200元的智能手机,并且为现场比赛设定了一个门槛:挑战人工智能的玩家需要达到一个高排名。在所有2100场比赛中,人工智能只输了4次(后羿穿着他的中国服赢了第一轮)。有关比赛的更多详细信息,请参见赛后实验部分。

国王的荣耀为何难以发挥

深度强化学习(DRL)已被广泛用于在竞争环境中具有复杂行动决策能力的学习代理的任务中。在竞争环境中,许多现有的DRL研究都采用双主体博弈作为测试平台,即一个主体对另一个主体(1v1)。目前,雅达利和go等游戏有很多优秀的解决方案,但是如何解决更复杂的塔式游戏呢?

这项研究正在讨论这个更复杂的MOBA 1v1游戏,其中MOBA 1v1是一个即时战略游戏,需要高度复杂的行动决策。与棋盘游戏和雅达利系列等1v1游戏相比,MOBA的游戏环境要复杂得多,人工智能的动作预测和决策也要困难得多。

以MOBA手游《王者荣耀》中的1v1游戏为例,其状态和涉及的动作数量分别可达到10 600和10 ,而围棋中相应的数字分别为10 170和10 360,见下表1。

表1:围棋和MOBA 1v1游戏的比较

此外,MOBA 1v1的游戏机制也非常复杂。为了赢得比赛,代理人必须学会在部分可观察的环境中计划、攻击、防守、控制技能组合以及诱导和欺骗对手。除了玩家和对手的代理之外,游戏中还有很多其他的游戏单位,比如蝙蝠侠和炮塔。这将给目标选择带来困难,因为它需要一个精细的决策序列和相应的动作执行。

另外,不同的英雄在MOBA玩不同的游戏,所以需要一个稳定统一的建模方法。同样非常重要的是,MOBA 1v1游戏缺乏用于监督和学习的高质量人类游戏数据,因为玩家通常只在玩1v1模式时练习英雄,而主流MOBA游戏的正式比赛通常采用5v5模式。

应该强调的是,本文关注的是MOBA 1v1游戏,而不是MOBA 5v5游戏,因为后者更关注所有代理的团队合作策略,而不是单个代理的行动决策。考虑到这一点,MOBA 1v1游戏更适合研究游戏中复杂的动作决策问题。

太难了,人工智能实验室怎么解决呢?

为了解决这些问题,腾讯的人工智能实验室设计了一个深度强化学习框架,并探索了一些算法创新。它对MOBA 1v1游戏等多主体竞争环境进行了大规模、高效的探索。本文设计的神经网络体系结构包括多模态输入编码、动作关联解耦、探索剪枝机制和攻击注意机制,以考虑MOBA 1v1游戏的变化情况。

腾讯人工智能实验室表示,本文的贡献在于对MOBA 1v1游戏人工智能代理的构建进行了全面系统的研究,这需要高度复杂的行动决策。

在系统设计方面,研究人员提出了一个深度强化学习框架,可以提供可伸缩的异步策略培训。

在算法设计方面,研究人员开发了一个演员-评论家神经网络,用于对MOBA行动决策进行建模。

网络优化采用多标签近端策略优化(PPO)目标,提出了动作依赖的解耦方法、目标选择的注意机制、高效探索的动作屏蔽、学习的技能组合LSTM、确保训练收敛的改进PPO 双剪辑PPO。

接下来,让我们看看这个强大的代理在算法和效果方面是什么样子的。

纸地址:

顶级智能体长?

系统设计

考虑到复杂智能体的动作决策问题可能引入高方差的随机梯度,有必要采用更大的批量来加快训练速度。因此,本文设计了一种高扩展性、低耦合的系统架构来构建数据并行性。具体来说,该体系结构包括四个模块:学习学习器、人工智能服务器、调度模块和内存池。如图1所示。

图1:系统设计概述

人工智能服务器实现人工智能模型和环境之间的交互。分发模块是用于样本收集、压缩和传输的工作站。内存池(Memory pool)是一个数据存储模块,可以为学习者提供训练实例。这些模块是分开的,可以灵活配置,从而使研究人员能够专注于算法设计和环境逻辑。该系统设计也可用于其他多智能体竞争问题。

算法设计

RL学习者实现了一个演员-评论家神经网络,其目标是为MOBA 1v1游戏中的动作依赖建模。如图2所示。

图2:论文中实现的演员-评论家网络

为了实现有效和高效的训练,本文提出了一系列创新的算法策略:

目标注意机制;用于帮助人工智能在MOBA战役中选择目标。

LSTM;为了学习英雄的技能释放组合,人工智能可以在序列决策中快速输出大量伤害。

动作依赖性的解耦;它用于构建多标签近端策略优化目标。

动作遮罩;这是一种基于游戏知识的剪枝方法,旨在指导强化学习过程中的探索。

双夹子PPO这是PPO算法的一个改进版本,用于在使用大的和有偏差的数据批进行训练时确保收敛。如图3所示。

图3:本文提出的DUAL-CLIPPO算法示意图,左边是标准PPO,右边是DUAL-CLIPPO

有关这些算法的更多细节和数学描述,请参考原论文。

惊人的实验效果

测试平台是流行的MOBA游戏《王者荣耀》的1v1游戏模式。为了评估人工智能在现实世界中的表现,这个人工智能模型已经与《王者荣耀》职业玩家和顶级业余人类玩家玩了很多游戏。在实验中,人工智能模型的动作预测间隔为133毫秒,约为业余选手的反应时间。此外,本文的方法还与现有研究中的基准方法进行了比较,包括博弈中建立的决策树方法和其他研究中的MTCS及其变体方法。该实验还使用Elo分数来比较模型的不同版本。

在上面,腾讯的人工智能实验室可以通过挑战顶级职业玩家来探索代理人行动决策能力的上限。通过挑战大量顶级业余选手,人工智能实验室可以评估代理人行动决策能力的稳健性。

2019年8月,国王的1v1人工智能的荣耀公之于众,与众多顶级业余玩家共玩了2100场游戏。人工智能的获胜率达到惊人的99.81%,保持了所有五位英雄的绝对获胜率。

0663-950

“基准比较”可以看出,用本文新方法训练的人工智能比各种基准方法表现得好得多。

图4:击败同一个基准对手的平均持续时间的比较

训练期间模型能力的进步

图5显示了训练期间Elo分数的变化。这里有一个使用射击英雄“迪徐人杰”的例子。可以观察到,Elo分数将随着训练时间的增加而增加,并在大约80小时后达到相对稳定的水平。此外,Elo的增长率与训练时间成反比。

图5:训练期间Elo分数的变化

为了理解纸方法中不同成分和设置的影响,控制变量实验是必不可少的。表5显示了使用相同训练资源的不同“迪徐人杰”人工智能版本的实验结果。

为了理解纸方法中不同成分和设置的影响,控制变量实验是必不可少的。表5显示了使用相同训练资源的不同“迪徐人杰”人工智能版本的实验结果。

表5:受控变量实验

在2020年第一个AAAI开放之前,机器的核心将计划在线共享多个阶段。本文第一作者叶德恒博士将于1月2日晚现场分享。

在线分享将在“AAAI 2020传播集团”进行。群组添加方法是添加机器助手之心(syncedai4),并注明“AAAI”邀请加入群组。进入群组后,将释放实时链接。回到搜狐看更多