当训练对抗性神经网络时,在鉴别器D和特征生成器G之间进行极小极大博弈。G和D都经过联合训练,因此G试图愚弄D,D试图做出准确的预测。对于文本到图像匹配问题,两个主干架构分别作为视觉和文本模态的特征生成器和,分别生成特征表示和。关键思想是为每个输入模态学习一个良好的通用表示,以最大限度地提高匹配性能,同时模糊模态信息。通过学习愚弄模态鉴别器,可以学习更好的特征表示,能够执行文本到图像的匹配。生成的嵌入被馈送到模态鉴别器,该鉴别器对输入特征表示是从视觉模态还是文本模态中提取进行分类。鉴别器由两个完全连接的层组成,这些层将嵌入大小减少到用于预测输入模态的标量值。鉴别器根据以下GAN[损失函数进行优化:
其中,V和T分别对应于图像和文本模态。
3.4. TrAIning and Testing Details