根据外媒 IEEE Spectrum 报道,Meta 公司的研究人员发表了一系列关于 MAE(masked auto-encoder,掩码自编码器)的新论文。MAE 系统可以通过 SSL 技术(self-supervised learning,自主监督学习)预测数据中缺失的部分,进而还原残缺的文本、图像、视频和音频。
MAE 系统还原不同类型文件的通用原理,就是根据已有信息预测缺失内容,再用其它数据弥补。
通过这项技术,AI 或许能够自动进行数据标注(ground truth),而不用再通过人工标注。这就意味着,AI 模型的学习效率得到很大提升,这或许为 AI 模型的未来发展带来了新思路。
一、智力的本质是预测能力,SSL 技术可以提升 AI 智能水平
MAE 系统使用了 SSL 技术(Self-supervised Learning,自监督学习)。SSL 是指用于机器学习的标注源于数据本身,而非来自人工标注的一种技术。
MAE 系统可以从非常零散的残缺数据中预测出丢失的那些部分,从而还原图像、视频和音频。而这就是 MAE 系统构建“世界模型”(world models)的过程。
Meta 的首席 AI 科学家扬・勒昆(Yann LeCun)说:“SSL 技术是 AI 系统构建‘世界模型’(world models)的前提条件。只有具备 SSL 功能后,AI 才能够像人类一样具备理性和常识,获得知识迁移的能力,适应不同环境。”扬・勒昆表示,如果 MAE 系统可以预测数据中丢失的那部分,这就意味着 AI 能够理解世界是三维的,拥有一定程度的分辨能力,才有可能预测人的复杂行为。
扬・勒昆(Yann LeCun)告诉外媒 IEEE Spectrum:“我们想创造能像动物和人类一样进行自主学习的 AI 模型。”扬・勒昆认为,智力的本质就是一种预测能力。这个观点得到 2018 年图灵奖得主本吉奥(Yoshua Bengio)的认可,本吉奥也认为对世界进行推理预测的能力是智力的关键。
▲ 左边是提供给 MAE 模型的训练图,中间是预测结果,右边是原图
二、填字游戏新玩法?AI 帮你补全画面
Meta 的 AI 部门的研究人员罗斯・吉尔希克(Ross Girshick)与人合著了一篇关于 MAE 系统原理的论文。论文中提到,Meta 的 MAE 系统建立在一种叫 Transformer 的神经网络算法上。Transformer 是一类基于注意力机制的神经网络算法。这种算法可以让 AI 模型减少对外部信息的依赖,捕捉数据或特征的内部关系,优化模型训练结果。
▲ 关于 MAE 原理的论文
在处理文本数据时,MAE 系统将会检测一个缺乏某些数据的文本数据库。MAE 系统检测到这些缺失的文本后,会用新的文本块补充丢失的内容。
这一技术同样可以迁移到 MAE 系统对静态图像的处理上。研究人员将图像分解成多个补丁(patch)块,再让 MAE 系统弥补缺失的图像。罗斯・吉尔希克(Ross Girshick)说,这一点是受到了谷歌关于 ViT 模型(Vision Transformer)的启发。
ViT 模型(Vision Transformer) 的基本原理就是将 Transformer 架构应用于计算机视觉领域。具体而言,ViT 模型可以将图片切分为相同大小的补丁块,给每个补丁块编码后再组成图像序列,机器可以识别这种图像序列。基于这种启发,MAE 系统在预测缺失的图像时,会把图像分解成很多小补丁块,再用新的补丁块填充丢失的内容。
三、文本和图像信息密度不同,遮盖 75% 图像实验结果最好
该团队发现,因为文本和图像的信息密度不同,文本和图像得到最佳还原效果所需遮盖的数据比例也不同。MAE 系统还原静态图像时,掩盖 75% 的数据会得到相对最好的结果。但对于文本而言,这个数字是 15%。
▲ 研究人员发现,遮盖 75% 的图像实验结果最好
语言是人类生成的具有高度语义和信息密集度的符号。每个字符都包含了很多含义,如果句子中丢失的单词过多,那么 MAE 模型会预测出很多种结果,准确率不高。与此对应,图像是具有大量空间冗余的自然符号。例如,在同一张图片上,区域相近的图片像素特征相差不大,所以通过模型可以从相邻的图像块中恢复丢失的图片信息。
罗斯・吉尔希克解释说,MAE 系统包含两个工作步骤。首先,MAE 系统会使用编码器通过数据集学习像素之间的关系。然后,MAE 系统会使用解码器从蒙版开始重建原始图像。这两部分完成后,MAE 系统会丢弃编码器,转而使用解码器用于分类和目标检测等视觉任务。
罗斯・吉尔希克说:“MAE 系统的解码器可以完成物体识别等任务,这对我们而言是巨大的收获。”这意味着,通过 MAE 系统,机器可以自动为数据标注(ground truth),而不用人工标注数据。
四、MAE 系统可节省 95% 的视频计算成本
当 MAE 系统用于处理视频时,研究人员会遮盖每帧画面中 95% 的数据信息。视频的帧与帧之间有很高的相似性,这意味着视频比静态图像有更多的信息冗余。Meta 研究人员 Christoph Feichtenhofer 说,通过这种方法,MAE 系统可以减少 95% 的计算成本,这就是 MAE 系统在视频计算上的一大优势。他还说,这个技术或许可以用于 Facebook 和 Instagram 上的内容审核和任务分类。
而对于音频的 AI 学习,Meta AI 团队发现了一个巧妙的方法。他们把音频文件转化为了声谱图,换言之,他们把声音转化成了图像。然后他们会再用与图像相同的处理方法,把声谱图的补丁掩盖起来再进行训练。尽管该模型目前只能处理几秒钟的音频片段,但已经取得了很好的效果。
音频系统的工作人员 Bernie Huang 说,这项技术在音频上的潜在应用包括音频分类、改善语音通话、更好地找到压缩音频文件的方法等。
▲ MAE 框架
结语:MAE 系统或有更大应用空间,但要谨慎考虑准确性
MAE 系统可以预测残缺数据中缺失的部分,进而还原文本、图片、视频和音频。
这个技术有很大的想象空间和应用潜力,例如复原考古遗迹照片、弥补数据丢失的历史文件等。MAE 系统不仅可能在 AI 领域获得突破,而且也可能为其它领域带来惊喜。
但是 MAE 模型也有缺点,基于目前实验的准确性不可能达到 100%,该模型可能会生成并不存在的内容。人们在使用 MAE 模型还原数据时,需要谨慎考虑和研究这些问题。