Image Style Transfer Using Convolutional Neural Networks
CNN 做 Style Transfer 的鼻祖,提出了 Gram 矩阵对风格的表征作用。从随机噪声图片不断迭代,使得图片的 Gram 矩阵越来越接近风格图片,图片的深层 Feature 越来越接近内容图片。
问题在于迭代时间过长。
思考
- Gram 矩阵,Gram 矩阵之间的距离。
- 提取风格、内容的方式。
Texture Networks: Feed-forward Synthesis of Textures and Stylized Images
单种风格变换的起始,输入内容图片,通过一个上采样网络生成风格化图像。对生成结果进行一次 Encode,计算内容、风格损失。
具体实现中输入是内容图片和一组随机变量组合的。并且对输入进行了上下采样,分别从不同层加入网络,生成图像。
思考
- 多尺度网络与 Res Net 之间的关系。
- 随机噪声的用处?
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
基于统计方法的风格化,对内容图片和风格图片 Encode,然后通过 AdaIN 层对内容图片进行仿射变换。最后再对内容图片 Decode 得到生成图片,对生成图片再次应用 Encode 计算损失函数。
过程中只对 Decode 结构进行更新。
在 Decoder 中,BN 会使得同一批次被渲染到类似风格的不同表现,IN 会使得每个图像(的不同部位)被渲染至统一风格的不同表现。所以最终没有使用归一化。
- BN: 对每个 channel 归一化,其中归一化参数在训练时学习。
- IN: 对每个样本的每个 channel 归一化,归一化参数在训练时学习。
- AdaIN: 同 IN,但是不学习归一化参数,每次直接使用样本统计量归一化。
思考
- 究竟哪些统计量对风格影响比较大?
- 归一化层在风格迁移中的坏处?强制迁移分布导致风格坍塌。