AI 已经可以学会看主播视频，来教自己打游戏了

吴厣人工智能 2022-10-08 682

今年 6 月底，知名科技公司 OpenAI 发布了一篇论文，主要围绕着一项名为 “视频预训练”（VPT：Video PreTrAIning）的 AI 技术展开讨论。

这项研究的成果相当喜人，例如，在看了 7 万多个小时《我的世界》视频后，案例中的 AI 已经成功学会了求生所需的大部分必备技能：游泳、狩猎、建房、下矿，甚至搜刮村庄。

尽管依然存在着一些人类难以理解的操作，但就结果来说，这已经比许多同类 AI 表现得要好多了。

AI 已经可以学会看主播视频，来教自己打游戏了-第1张图片-小猪号

AI 搜到东西后兴奋地撸起了天花板

当然，相比起背后堆积如山的代码与“逆动力模型”等看了就让人迷茫的技术词汇，作为普通玩家的我们，更关心的可能还是这么一款高智能、饶有趣味的 AI 到底什么时候才能实装进游戏里。

AI 已经可以学会看主播视频，来教自己打游戏了-第2张图片-小猪号

“给俺也整一个”

1

无须等待，AI 走进千万家的场景就在当下。

虽然 OpenAI 的模型目前仅提交给了专门负责研究《我的世界》AI 的 MineRL 大赛，但就在他们论文发布的前后几天，另一个功能类似的 AI 也同样出现在了网上。更重要的是，研究团队直接将他们的代码放在了 Github 上供所有人下载研究。

AI 已经可以学会看主播视频，来教自己打游戏了-第3张图片-小猪号

MineDojo 的 Github 页面

这个名叫 MineDojo 的项目由英伟达的工程师进行开发，同样是通过观看网上的视频资料进行训练，但与 OpenAI 略有不同的是，他们的资料库要庞大得多。

MineDojo 一共搜集了 73 万个油管上的游戏视频、7000 多个维基网页，甚至还有上百万条和《我的世界》有关的 Reddit 评论。

AI 已经可以学会看主播视频，来教自己打游戏了-第4张图片-小猪号

“互联网规模”

这么做的目的，当然在于帮助 AI 理解人类语境中“建造“”求生“等词汇的意义，油管主们在教学视频中声情并茂地教导观众从哪里出发，到哪里寻找神庙，再到如何攻略末影龙 ——

对于 AI 来说，这就是上好的“网课”。

支持这一行为的，是一个被称为 MineCLIP 的学习算法。它可以帮助 AI 把主播的解说与视频中展示的操作联系起来，以此达到训练的目的；同样的，训练好的 AI 也能理解玩家直接下达的任务。

这是 MineDojo 最有趣的部分，工程师们准备了 3000 个可以直接下达给 AI 的指令，一类是程序化任务，例如“生存 3 天”或“收集两块木头”，这是可以用数字和名词客观衡量的任务；另一类是抽象化任务，例如“建造一座漂亮的海滨别墅”。

AI 可能很难理解“漂亮”“海滨”“别墅”到底是什么意思，不过通过视频画面的讲解，再搜索玩家们相关评论的关键词之后，大多数时刻 AI 都能有模有样地完成目标。

在这些任务中，玩家可以给 AI 下令“把牛羊圈起来”“去沼泽里找鸡”“尽可能地活久一点”，或者干脆让它去搜刮一个海底神庙。因为使用了互联网上的常用语言，AI 对某些人类特有的幽默感学得挺到位的。

AI 已经可以学会看主播视频，来教自己打游戏了-第5张图片-小猪号

下达”玩”的指令

和 OpenAI 的模型比起来，MineDojo 的技术难度或许并没有那么高，毕竟它直接接入了游戏端口，利用游戏内的数据直接控制 AI 行动要简单许多；而 OpenAI 则是从零开始建立了一个模仿人类的行动模型，指令都是直接模拟人类的键鼠操作。

并且 MineDojo 在部分时刻依然要借助修改游戏数据才能达到目的，比如攻略末影龙的时候，只有“作弊”让末影龙站在原地挨打才能通关。

AI 已经可以学会看主播视频，来教自己打游戏了-第6张图片-小猪号

手足相残的残忍录像

不过，MineDojo 依然呈现出了 AI 可以通过现有视频、资料进行学习的能力。唯一遗憾的是，目前还没有看到多少 MineDojo 实装后的反馈，因此实际效果如何也存在一定的疑问。好处是它供所有人免费下载，当作 AI 入门的免费资料试试未尝不可。

2

得益于当代互联网的发展，AI 能从视频资料中获取自己想要的知识。人类也是如此，制作一个会玩游戏的 AI，有时候看视频就够了。

视频比教科书更进一步的是，哪怕观众什么也不明白，不知道 python 语言、架构、蒙特卡洛算法是什么，每个人依然能从视频里得到乐趣，随后潜移默化地了解知识。

在这一领域起代表性作用的，是那些致力于设计游戏 AI 的视频制作者们。

首先要提到的是人们或许更为熟知的“遗传算法”，一个在上个世纪的六十年代提出，被这个世纪所发扬光大的技术。

它类似生物学意义上的进化论，具体来说，就是通过系统生成一堆什么也不懂的婴儿，让他们在大自然（程序）世界里尝试各种操作，通过选择表现更好的子代，达到不断优化 AI 表现的目的。

用油管上一条《AI 学习玩 JUMP KING》的视频举例，大致场景就是这样的。

AI 已经可以学会看主播视频，来教自己打游戏了-第7张图片-小猪号

先生 500 个孩子试试

视频作者 Code Bullet（下文简称 CB）已经用这个算法成功制作出了不少 AI 通关游戏的视频，《吃豆人》《Flappy Bird》这类强调优化 AI 行动的游戏都可以沿着类似的思路走下去。

思路是清晰的，做起来也很“简单”。翻阅一下 CB 大部分制作 AI 的视频，都可以看到他的过程主要分为了三个部分。

AI 已经可以学会看主播视频，来教自己打游戏了-第8张图片-小猪号

“制作一个会玩游戏的 AI 仅需要三步”

重做游戏的原因我们稍后再进行讨论，CB 视频中展现的精髓部分在于遗传算法的“筛选”功能。不同于物竞天择的大自然，这里我们才是负责挑选 AI 的上帝。

刚出生的 AI 当然是什么也不懂得的小婴儿，给它们添加行动指令，AI 也不会懂得往哪里行动有什么意义。因此常见的做法是给随机行动的 AI 设置奖励和惩罚，例如跳跃一次加 1 分、达到下一关加 2 分、左右移动加 0.5 分，向下跌落则扣 1 分。

AI 已经可以学会看主播视频，来教自己打游戏了-第9张图片-小猪号

“往上走就好，往下是坏，这很简单”

每代 AI 只有五次行动机会，五次行动结束后，跳跃高度最高的 AI 就会成为下一代的模范，此后的每一代 AI 都会遵循上一代摸索出最好的路径前进 —— 这就是很简单的进化了。

不过这么简单的规则还没有办法解决某些“思考”问题，如果某关需要先下降，再向上跳跃的话，死脑筋的 AI 就会因为扣分原则而拒绝往下跳。

解决办法可以是在降落地点设置同样可以提供奖励的收集品，引导 AI 通过收集奖励，前往更高的场景。

AI 已经可以学会看主播视频，来教自己打游戏了-第10张图片-小猪号

跟游戏引导玩家的方式其实很像

等所有程序都准备好之后，只要让 AI 自己跑起来就行了，它们自然会一代代地找到最好走的路线，最终完成游戏通关的任务。

AI 已经可以学会看主播视频，来教自己打游戏了-第11张图片-小猪号

经历 862 代的演变后，就能到顶啦

3

自 AlphaGo 2017 年从赛场“退役”，已经过去了五年。自那之后，“民用 AI”在游戏领域可谓发光发热，在油管上用 AI 玩《VALORANT》《大富翁》《糖豆人》的博主们也大有人在。

虽然没有公司的资金支持，也没有流着血泪帮忙标注数据的研究生们，但得益于 Github 的开放性，每个网民随手就可以下到一大堆经过一定训练的神经网络程序。

AI 已经可以学会看主播视频，来教自己打游戏了-第12张图片-小猪号

以一位油管上仅有 7000 粉丝的小博主 River 为例，他的一期视频就很简洁地展现了 AI 技术的低门槛。

前期准备非常简单：你只需要两台电脑、一段网上下载的程序、一个视频采集卡，再加一个无线鼠标信号接收器。

而要做的工作也无非是标注一些供 AI 训练识别能力的图片，一“小”段指示行为模式的代码，然后直接扫描小地图指示方位，再把键盘信号都通过无线鼠标传送到电脑里。

虽然信号发送是麻烦了点，但好处也有，因为没有额外程序接入游戏，自然也不会被判断出使用了外挂。

AI 已经可以学会看主播视频，来教自己打游戏了-第13张图片-小猪号

AI 已经可以学会看主播视频，来教自己打游戏了-第14张图片-小猪号

一切操作都是由另一台电脑根据实时图像作出的

当然，在目前的表现上来看，River 的 AI 也和普通的 AI 机器人差不多，并没有 AlphaGo 那种神奇的自我进化能力。

不过，只是想简单体验 AI 设计，已经没有了那么高的门槛。不断设计更新更强的 AI 也是一件颇有乐趣的行为，其中一项就是分辨正确与错误之间的“边界”。

AI 已经可以学会看主播视频，来教自己打游戏了-第15张图片-小猪号

那是人（确信）

正如 MineDojo 要区分程式化任务与抽象类任务的区别，我们在教导 AI 时，同样能从 AI 分辨的结果当中，得到自己对于事物的定义和由此产生的解释，或许能启发人类解决生活中的矛盾。

朋友问你今天过得怎么样、相亲时怎么向对方介绍自己，如果每个问题都能用程序解答，未尝不是人类也已经进化到更高一层的体现。

AI 已经可以学会看主播视频，来教自己打游戏了-第16张图片-小猪号

谁训练了我，我又训练了谁？

本文来自微信公众号：游戏研究社（ID：yysaag），作者：RMHO

标签： AI 游戏

本文地址： https://xzxzc.com/xz/82626.html