AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦

吴厣 2022年11月30日 342 0

AI 看 70000 小时《我的世界》视频，能达到一个什么水平？

以“钻石镐”（diamond pickaxe）为例，这个东西高级人类玩家要快速点击 20 分钟、约 2.4 万个动作才能制作完成。

而现在的 AI，已然能够轻松 hold 住了。

哐哐找到各种材料，一步步进行各种合成：

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第1张图片-小猪号

这就是来自 OpenAI 号称最强的《我的世界》AI——MineDojo。

它还是世界第一个能够打造“钻石工具”的 AI。

不仅如此，像打造“石镐”、“简易避难所”都不在话下：

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第2张图片-小猪号

当然，在《我的世界》里其它的常规操作，在 MineDojo 手里也游刃有余。

例如游泳、狩猎、支柱跳等等：

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第3张图片-小猪号

至于 OpenAI 为什么要让 AI 学会这些技巧，研究人员 Bowen Baker 表示：

很大程度上是因为我们在模拟人类上网时的行为。

MineDojo 是如何炼成的？

正如我们刚才提到的，MineDojo 的“炼成之道”，就是看视频。

这些视频内容都是人类玩家发布在油管上，展示自己如何玩《我的世界》的。

然后在看完 70000 小时视频之后，这个 AI 就学会了如何执行游戏中的各种任务。

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第4张图片-小猪号

这种方式一般被称为模仿学习（imitation learning），就是训练神经网络通过观察人类行为来学习。

虽然此前也有众多相关研究，但仍有一些问题尚待解决。

“贴标签”就是其中之一。

传统方式就是在每一个动作上贴上标签：这么做会发生这件事、那么做会发生那件事。

但这种方式可想而知的后果，就是工作量太大了，导致可以用来训练的数据较少。

因此，OpenAI 的研究人员便另辟蹊径，想出了不一样的研究思路 —— 视频预训练（Video Pre-Training，VPT）：

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第5张图片-小猪号

这个方法的核心思路，就是训练另一个神经网络，专门来处理繁琐的“贴标签”的工作。

为此，研究人员先是找来一批玩家让他们先玩《我的世界》，当然，娱乐的同时也要记录下键盘、鼠标的点击次数。

如此一来，研究人员先是得到了 2000 小时带标记的一些数据。

在这基础上，他们便开始训练一个模型，来匹配键盘、鼠标动作和屏幕上的结果 ——

例如在什么情况下点下鼠标，会让游戏中的角色挥舞斧头。

把这个模型训练出来之后，就要引入 70000 小时没有标签的视频了；在它的加持下，庞大且可用的数据集就诞生了。

再接下来，就是回到之前模仿学习的思路，用这些新数据来训练 AI。

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第6张图片-小猪号

虽说模仿学习可以说是强化学习的一个分支，但 OpenAI 的研究人员发现，VPT 训出来的 AI，能够完成单靠强化学习无法完成的任务。

比如制作木板并把它们变成一张桌子（大约需要 970 个连续动作）。

不仅如此，研究人员还发现，若是把模仿学习和强化学习做个结合，那么效果是最好的。

而由《我的世界》这次的研究拓展开来，OpenAI 的研究人员还表示：

我们的 AI 还可以执行其它任务，例如鼠标浏览网站、预订航班或在线购物。

《我的世界》已经成为 AI 技术试验田

其实 OpenAI 这次研究的亮点，刨除 VPT 方法本身，其研究的两大要素 ——《我的世界》和视频，也成为人们热议的焦点。

《我的世界》这款游戏的一大特点就是开放性，玩家可以在这个虚拟世界里做出许多意想不到的杰作。

不同于以往强化学习训练 AI 的游戏环境，大多都是以“输赢”为结果而终止了，但往往 AI 后期训练出来的能力可能是超越这种“限制”的。

但《我的世界》就没有“输赢”之说了，AI 可以在这里尽情的发挥。因此 OpenAI 研究人员表示：

《我的世界》是训练 AI 很好的试验田。

而这也赢得了 NeurIPS 的认可 ——MineDojo 拿下了今年这个顶会的一个奖项。

至于这项研究第二个热议点“视频”，正如索尼执行董事 Peter Stone 所述：

视频是一种潜力巨大的培训资源。

但似乎 OpenAI 的研究人员还不满足此次的成果，他们认为，收集 100 万小时《我的世界》的视频，会让它们的 AI 变得更加出色。

当然，这项研究也引来不少网友们的围观，也有一些比较有意思的讨论：

人们想让 AI 有意识，但它们有意识之后才发觉，自己需要被迫看这么久的视频，有够累的。

AI 看了 70000 小时《我的世界》视频学会人类高级技巧，网友：它好痛苦-第7张图片-小猪号

论文地址：

https://openai.com/blog/vpt/

参考链接：

[1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/
[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ
[3]https://www.youtube.com/watch?v=fJn9B64Znrk

本文来自微信公众号：量子位（ID：QbitAI），作者：金磊

标签：我的世界游戏 AI

本文地址： https://xzxzc.com/xz/91649.html