CVPR2019 Paper Reading

Learning Linear Transformations for Fast Image and Video Style Transfer

对普通的图像生成模型进行了改动。一般认为存在latent code来控制生成图像的内容以及风格,latent code是对隐藏因素的编码,所以会被直接放入神经网络的输入部分在图像生成中被解码。

本文相当于是对latent code的作用位置进行了改变,认为latent code直接(先通过一个外部网络进行变换)作用于每层的放缩,相当大胆的猜测,并且取得了较为不错的结果。f根据论文展示的成果来看,该模型应该更擅长图像的上色等风格相关的工作,直观上看直接对层进行放缩更影响风格(style transfer 中认为每层的每通道代表了一种风格)。

一些想法

  • 不是对一层,而是对每层的每通道分别放缩,说不定可以有更好的效果。
  • 也可以不止是放缩,偏置应该更对风格改变有作用,

Arbitrary Style Transfer with Style-Attentional Networks

该论文的模型框架为:

其中最关键的就是SANet,它通过将[latex]F_c[/latex]和[latex]F_s[/latex]归一化,再分别通过一个[latex]1\times 1[/latex]的卷积层,再对[latex]\overline{F_c}[/latex]中的每一个位置通过点积计算出和[latex]\overline{F_s}[/latex]中每个位置的相关程度,利用该相关程度对[latex]F_s[/latex]的另一个[latex]1\times 1[/latex]卷积结果进行组合,得到输出。

loss计算也有些不同,增加了identity loss,并且content loss 通过第4、5层归一化后的二范数计算,style loss通过AdaIN loss计算,选取了前5个大层。

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注