揭秘星际2人工智能AlphaStar:DeepMind科学家回应一切(3)
时间:2019-01-27 12:29 来源:百度新闻 作者:巧天工 点击:次
Oriol Vinyals:人工智能还面临着一些重要而令人兴奋的挑战。我最感兴趣的是「元学习(Meta Learning)」,它与更少的数据点和更快速的学习有关。这种思想自然可以应用在星际争霸 2 上——它可以减少训练智能体所需的数据量,也可以让 AI 更好地学习和适应新的对手,而不是「冻结」AlphaStar 的权重。 问:AlphaStar 的技术可以应用到哪些其他科学领域? Oriol Vinyals:AlphaStar 背后的技术可以应用在很多问题上。它的神经网络架构可以用于超长序列的建模——基于不完美信息,游戏时间可以长达一个小时,而步骤有数万个。星际争霸的每一帧都被算作一步输入,神经网络会在每帧之后预测游戏剩余时间内的预期行动顺序。这样的方式在天气预报、气候建模、语言理解等需要对长序列数据进行复杂预测的领域非常有前景。 我们的一些训练方法也可以用于提高人工智能系统的安全性与鲁棒性,特别是在能源等安全关键领域,这对于解决复杂的前沿问题至关重要。 职业玩家的看法 两位与 AlphaStar 交手的星际争霸 2 职业玩家,TLO 与 MaNa (图中居右)。 问:对于职业玩家来说,你们就像在指导 AlphaStar,在你们看来它在比赛中展现出了哪些优缺点?它获得胜利的方式来自决策还是操作? MaNa:它最强的地方显然是单位控制。在双方兵力数量相当的情况下,人工智能赢得了所有比赛。在仅有的几场比赛中我们能够看到的缺点是它对于技术的顽固态度。AlphaStar 有信心赢得战术上的胜利,却几乎没有做任何其他事情,最终在现场比赛中也没有获得胜利。我没有看到太多决策的迹象,所以我说人工智能是在靠操作获得胜利。 问:和 AlphaStar 比赛是什么样的体验?如果你不知道对手是谁的话,你能猜出它是机器吗?人工智能的引入会为星际争霸 2 带来哪些变化? MaNa:与 AlphaStar 比赛过程中我非常紧张,特别因为它是一台机器。在此之前,我对它所知甚少。由于缺乏信息,我不得不以一种不熟悉的方式进行比赛。如果没有被告知对手是谁,我会质疑它是否是人类。它的战术和人类很像,但微操不是任何人类都能实现的。我肯定会发现它不是人类,但可能需要不止一场游戏的信息。我对 AlphaStar 的未来非常期待,我迫不及待地想要和它进行更多游戏。 星际争霸 2 人机大战赛事回顾 昨天是 DeepMind 星际争霸 2 智能体 AlphaStar 首秀。DeepMind 放出了 AlphaStar 去年 12 月与星际争霸 2 职业玩家 LiquidTLO、MaNa 的比赛视频,AlphaStar 均以 5:0 的战绩战胜星际争霸 2 职业玩家。目前,AlphaStar 只能玩神族,不过它依然战胜了神族最强十人之一的 MaNa! 昨天,DeepMind 还组织了一次 MaNa 和 AlphaStar 的现场对决。MaNa 在赛前称,自己要来一场「复仇之战」。事实证明,他成功了。 所有 11 场比赛的 Replay:https://deepmind.com/research/alphastar-resources/ 在这场比赛中,我们可以看到 AI 的一个缺陷:除了特定的分兵战术,并没有灵活的兵力分配概念。这让我们想起打星际 1 电脑的远古时代,开局派出一个农民去攻击电脑的基地,电脑就会派出所有农民去一直追杀你这个农民。这场 MaNa 也是利用的相似的办法,棱镜带着两不朽在 AI 的基地不停骚扰,AlphaStar 一旦回防立刻飞走,等 AI 兵力出门又立刻继续骚扰。 开局不久后,AlphaStar 便逐渐占据优势,正面利用追猎者袭扰 MaNa 的二矿,背面则用两个先知不断进犯矿区。人工智能展现的压迫力让场面变得非常紧张。 虽然人工智能在兵力对等的情况下每次都能占到便宜,但人类的偷袭战术逐渐吸引了 AlphaStar 的主要兵力,帮助 MaNa 成功扛过 AI 的正面进攻。随后,MaNa 的大军在对手二矿位置获得了决定性胜利。到了第 12 分钟,人类打爆了 AI 的所有建筑,获得了胜利。 AlphaStar 官方解读 AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络在单元中使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。 AlphaStar 也使用到了全新的多智能体学习算法。神经网络最初通过暴雪公开的匿名人类游戏视频以监督学习进行训练。这让 AlphaStar 能够通过模仿进行学习天梯玩家的基础微操与宏观操作策略。 AlphaStar 联盟。最初是通过人类玩家的游戏回放视频进行训练,然后与其他对手对抗训练。每次迭代就匹配新的对手,冻结原来的对手,匹配对手的概率和超参数决定了每个智能体采用的的学习目标函数,保留多样性的同时增加难度。智能体的参数通过强化学习进行更新。最终的智能体采样自联盟的纳什分布(没有更换)。 随着自我博弈的进行,AlphaStar 逐渐开发出了越来越成熟的战术。DeepMind 表示,这一过程和人类玩家发现战术的过程类似:新的战术不断击败旧的战术。 为了训练 AlphaStar,DeepMind 使用了谷歌最先进的深度学习芯片 TPU v3 构建了一个高度可扩展的分布式训练配置,支持数千个对战训练并行运算。AlphaStar 联赛运行了 14 天,每个人工智能体使用 16 块 TPU。在训练时间上,每个智能体相当于训练了人类的 200 年游戏时间。最后成型的 AlphaStar 采用了各个智能体中获胜概率最高战术的组合,并可以在单个 GPU 的计算机上运行。 (责任编辑:波少) |