何恺明的博士博士导师是谁
发布时间: 2022-05-24 20:55:56
Ⅰ 如何评价何恺明等关于Masked Autoencoder的新作
本文证明了面向计算机视觉的masked autoencoders(MAE)是一种可扩展的自监督学习器。我们的 MAE 方法很简单:我们随机掩盖输入图像的patch,然后重建丢失的像素。
扩展性好的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法使得可以从指数缩放的模型中获益。
在计算机视觉中,尽管在自我监督学习方面取得了进展,但实际的预训练模式仍主要是受到监督的方式。在这项研究中,我们在ImageNet和转移学习中观察到,自动编码器是一种简单的自我监督方法,类似于NLP中的技术,为我们提供了可扩展的优势。视觉中的自我监督学习现在可能正走上与NLP类似的轨道。
另一方面,我们注意到,图像和语言是不同性质的信号,必须仔细处理这种差异。图像仅仅是记录下来的光,是没有语义分解成文字的视觉模拟。我们不尝试删除对象,而是删除最有可能不构成语义段的随机patch。

总结如下:
我们的MAE重建像素,而像素不是语义实体。然而,我们观察到,我们的MAE推断出复杂的、整体的重建,这表明它已经学习了许多视觉概念、如语义。我们假设这种行为是通过MAE内部丰富的隐藏表征发生的。我们希望这一观点将启发今后的工作。
热点内容
