图注:基于能量的模型:“VICREG”是“自监督学习的方差-不变性-协方差重新正则化(Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning)”的缩写,是LeCun在基于能量的神经网络架构上的最新研究成果。一组图像在两个不同的管道中转换,每个扭曲后的图像会被发送到编码器,该编码器实质上是对图像进行压缩。然后,投影仪(也被称为“扩展器”)会将这些压缩的表示解压成最终的“嵌入”,即 Z 维。正因为这两种嵌入之间的相似性不受其扭曲的影响,程序才能够找到合适的低能量级别去识别出某些东西。(图源:FAIR)
这个预测还取决于一些你无法观察到的潜变量。比如,当你开车的时候,你的前面有一辆车。这辆车可能刹车,可能加速,左转或右转。你不可能提前知道车辆的情况,这就是潜变量。所以整体架构是这样的,取最初的视频集X和未来的视频Y,将X、Y嵌入到某个神经网络中,从而得到X和Y的两个抽象表示。然后在这个空间里做一个关于某个潜变量的基于能量的预测模型。
重点是,这个模型在预测世界抽象表示的时候,是不能预测世界上所有的细节的,因为这个世界上的很多细节可能是不相关的。在路上驾车的时候,可能会在路边的一棵树上看到一片叶子上非常复杂的部分。模型是绝对不可能预测这个的,或者说你也不想投入任何精力或资源来预测这点。所以这个编码器本质上可以在被问到之前就消除这些信息。 ZDNet:你认为在未来的5到10年会出现一些具体的里程碑吗?或者目标?