DeepMind 又对雅达利游戏下手了!
这次,他们最新推出的智能体 MEME,在效果不变的前提下,比两年前的 Agent57 提速了 200 倍!
Agent57,是 DeepMind 在 2020 年搞的一个智能体,史上首次在所有 57 个雅达利游戏中超过了人类基准表现。
但它有一个致命缺陷是效率低:需要近 800 亿帧的数据训练才能实现。
现在,MEME 的出现完美解决了这一问题。
有网友看完表示:这就是真正的样本高效吧。
话不多说,赶紧来一睹为快吧。
新的智能体:MEME
Agent57,作为首个在所有雅达利游戏中超越人类基准表现的智能体,性能上已足够先进。
但问题是,要想达到这一目标,背后需要 780 亿帧的庞大的经验训练,这在时间和成本上都是一笔大开支。
因此,以 Agent57 为起点,DeepMind 采用了一系列不同的策略,来实现训练效率上的提升。
他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈,并提出了有效的解决方案,最后建立一个更加强大和高效的智能体:MEME。
新的 MEME 智能体主要针对 Agent57 的 4 个方面进行改善,分别是:
A.实现与罕见事件相关的学习信号的快速传播;
B.在不同的价值尺度下稳定学习;
C.改进神经网络结构;
D.在快速变化的政策下使更新更加稳健。
为了达到这四个目标,DeepMind 采取了以下方法,与上述四点相对应。
A1.用在线网络进行引导;
A2.有公差的目标计算;
B1.损失和优先权归一化;
B2.交叉混合训练;
C1.无归一化的躯干网络;
C2.带有综合损失的共享躯干;
D.通过策略提炼的鲁棒行为。
这些方法旨在提高 Agent57 的数据效率,但这种效率的提高不能以牺牲终端性能为代价。
因此,为了检验经过上述步骤的智能体 MEME 的效率和性能,研究团队分别在 2 亿、10 亿、200 亿、900 亿帧环境进行了训练。
通过下图可以直观的看出,新智能体 MEME 在 3.9 亿帧时就超过了人类基准,比 Agent57 快了两个数量级,并且在将参数量从 90B 减少到 1B 的情况下,取得了类似的最终表现。
可以说相比 Agent57 而言,MEME 既提升了效率,又保持了性能。
研究团队
MEME 的研究团队来自 DeepMind。
其中三位 Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell 也是之前 Agent57 的论文作者。
值得一提的是,Steven Kapturowski 在两篇论文中都是一作。
他毕业于美国科罗拉多大学博尔德分校,曾在苹果、微软、Glassdoor 等公司工作过,现在是 DeepMind 的一名高级研究工程师。
参考
[1]https://arxiv.org/pdf/2209.07550.pdf
[2]https://arxiv.org/pdf/2003.13350.pdf
[3]https://www.linkedin.cn/incareer/in/stevenkapturowski