CVPR2019 Paper Reading – LincHpin's Blog

Learning Linear Transformations for Fast Image and Video Style Transfer

对普通的图像生成模型进行了改动。一般认为存在latent code来控制生成图像的内容以及风格，latent code是对隐藏因素的编码，所以会被直接放入神经网络的输入部分在图像生成中被解码。

本文相当于是对latent code的作用位置进行了改变，认为latent code直接（先通过一个外部网络进行变换）作用于每层的放缩，相当大胆的猜测，并且取得了较为不错的结果。f根据论文展示的成果来看，该模型应该更擅长图像的上色等风格相关的工作，直观上看直接对层进行放缩更影响风格（style transfer 中认为每层的每通道代表了一种风格）。

一些想法

不是对一层，而是对每层的每通道分别放缩，说不定可以有更好的效果。
也可以不止是放缩，偏置应该更对风格改变有作用，

Arbitrary Style Transfer with Style-Attentional Networks

该论文的模型框架为：

其中最关键的就是SANet，它通过将[latex]F_c[/latex]和[latex]F_s[/latex]归一化，再分别通过一个[latex]1\times 1[/latex]的卷积层，再对[latex]\overline{F_c}[/latex]中的每一个位置通过点积计算出和[latex]\overline{F_s}[/latex]中每个位置的相关程度，利用该相关程度对[latex]F_s[/latex]的另一个[latex]1\times 1[/latex]卷积结果进行组合，得到输出。

loss计算也有些不同，增加了identity loss，并且content loss 通过第4、5层归一化后的二范数计算，style loss通过AdaIN loss计算，选取了前5个大层。

Learning Linear Transformations for Fast Image and Video Style Transfer

一些想法

Arbitrary Style Transfer with Style-Attentional Networks

Leave a Comment Cancel