Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图

吴厣人工智能 2022-07-05 730

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图-第1张图片-小猪号

根据外媒 IEEE Spectrum 报道，Meta 公司的研究人员发表了一系列关于 MAE（masked auto-encoder，掩码自编码器）的新论文。MAE 系统可以通过 SSL 技术（self-supervised learning，自主监督学习）预测数据中缺失的部分，进而还原残缺的文本、图像、视频和音频。

MAE 系统还原不同类型文件的通用原理，就是根据已有信息预测缺失内容，再用其它数据弥补。

通过这项技术，AI 或许能够自动进行数据标注（ground truth），而不用再通过人工标注。这就意味着，AI 模型的学习效率得到很大提升，这或许为 AI 模型的未来发展带来了新思路。

一、智力的本质是预测能力，SSL 技术可以提升 AI 智能水平

MAE 系统使用了 SSL 技术（Self-supervised Learning，自监督学习）。SSL 是指用于机器学习的标注源于数据本身，而非来自人工标注的一种技术。

MAE 系统可以从非常零散的残缺数据中预测出丢失的那些部分，从而还原图像、视频和音频。而这就是 MAE 系统构建“世界模型”（world models）的过程。

Meta 的首席 AI 科学家扬・勒昆（Yann LeCun）说：“SSL 技术是 AI 系统构建‘世界模型’（world models）的前提条件。只有具备 SSL 功能后，AI 才能够像人类一样具备理性和常识，获得知识迁移的能力，适应不同环境。”扬・勒昆表示，如果 MAE 系统可以预测数据中丢失的那部分，这就意味着 AI 能够理解世界是三维的，拥有一定程度的分辨能力，才有可能预测人的复杂行为。

扬・勒昆（Yann LeCun）告诉外媒 IEEE Spectrum：“我们想创造能像动物和人类一样进行自主学习的 AI 模型。”扬・勒昆认为，智力的本质就是一种预测能力。这个观点得到 2018 年图灵奖得主本吉奥（Yoshua Bengio）的认可，本吉奥也认为对世界进行推理预测的能力是智力的关键。

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图-第2张图片-小猪号

▲ 左边是提供给 MAE 模型的训练图，中间是预测结果，右边是原图

二、填字游戏新玩法？AI 帮你补全画面

Meta 的 AI 部门的研究人员罗斯・吉尔希克（Ross Girshick）与人合著了一篇关于 MAE 系统原理的论文。论文中提到，Meta 的 MAE 系统建立在一种叫 Transformer 的神经网络算法上。Transformer 是一类基于注意力机制的神经网络算法。这种算法可以让 AI 模型减少对外部信息的依赖，捕捉数据或特征的内部关系，优化模型训练结果。

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图-第3张图片-小猪号

▲ 关于 MAE 原理的论文

在处理文本数据时，MAE 系统将会检测一个缺乏某些数据的文本数据库。MAE 系统检测到这些缺失的文本后，会用新的文本块补充丢失的内容。

这一技术同样可以迁移到 MAE 系统对静态图像的处理上。研究人员将图像分解成多个补丁（patch）块，再让 MAE 系统弥补缺失的图像。罗斯・吉尔希克（Ross Girshick）说，这一点是受到了谷歌关于 ViT 模型（Vision Transformer）的启发。

ViT 模型（Vision Transformer) 的基本原理就是将 Transformer 架构应用于计算机视觉领域。具体而言，ViT 模型可以将图片切分为相同大小的补丁块，给每个补丁块编码后再组成图像序列，机器可以识别这种图像序列。基于这种启发，MAE 系统在预测缺失的图像时，会把图像分解成很多小补丁块，再用新的补丁块填充丢失的内容。

三、文本和图像信息密度不同，遮盖 75% 图像实验结果最好

该团队发现，因为文本和图像的信息密度不同，文本和图像得到最佳还原效果所需遮盖的数据比例也不同。MAE 系统还原静态图像时，掩盖 75% 的数据会得到相对最好的结果。但对于文本而言，这个数字是 15%。

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图-第4张图片-小猪号

▲ 研究人员发现，遮盖 75% 的图像实验结果最好

语言是人类生成的具有高度语义和信息密集度的符号。每个字符都包含了很多含义，如果句子中丢失的单词过多，那么 MAE 模型会预测出很多种结果，准确率不高。与此对应，图像是具有大量空间冗余的自然符号。例如，在同一张图片上，区域相近的图片像素特征相差不大，所以通过模型可以从相邻的图像块中恢复丢失的图片信息。

罗斯・吉尔希克解释说，MAE 系统包含两个工作步骤。首先，MAE 系统会使用编码器通过数据集学习像素之间的关系。然后，MAE 系统会使用解码器从蒙版开始重建原始图像。这两部分完成后，MAE 系统会丢弃编码器，转而使用解码器用于分类和目标检测等视觉任务。

罗斯・吉尔希克说：“MAE 系统的解码器可以完成物体识别等任务，这对我们而言是巨大的收获。”这意味着，通过 MAE 系统，机器可以自动为数据标注（ground truth），而不用人工标注数据。

四、MAE 系统可节省 95% 的视频计算成本

当 MAE 系统用于处理视频时，研究人员会遮盖每帧画面中 95% 的数据信息。视频的帧与帧之间有很高的相似性，这意味着视频比静态图像有更多的信息冗余。Meta 研究人员 Christoph Feichtenhofer 说，通过这种方法，MAE 系统可以减少 95% 的计算成本，这就是 MAE 系统在视频计算上的一大优势。他还说，这个技术或许可以用于 Facebook 和 Instagram 上的内容审核和任务分类。

而对于音频的 AI 学习，Meta AI 团队发现了一个巧妙的方法。他们把音频文件转化为了声谱图，换言之，他们把声音转化成了图像。然后他们会再用与图像相同的处理方法，把声谱图的补丁掩盖起来再进行训练。尽管该模型目前只能处理几秒钟的音频片段，但已经取得了很好的效果。

音频系统的工作人员 Bernie Huang 说，这项技术在音频上的潜在应用包括音频分类、改善语音通话、更好地找到压缩音频文件的方法等。

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图-第5张图片-小猪号