Style Transfer Paper Reading

Image Style Transfer Using Convolutional Neural Networks

CNN 做 Style Transfer 的鼻祖,提出了 Gram 矩阵对风格的表征作用。从随机噪声图片不断迭代,使得图片的 Gram 矩阵越来越接近风格图片,图片的深层 Feature 越来越接近内容图片。

问题在于迭代时间过长。

思考

  • Gram 矩阵,Gram 矩阵之间的距离。
  • 提取风格、内容的方式。

Texture Networks: Feed-forward Synthesis of Textures and Stylized Images

单种风格变换的起始,输入内容图片,通过一个上采样网络生成风格化图像。对生成结果进行一次 Encode,计算内容、风格损失。

具体实现中输入是内容图片和一组随机变量组合的。并且对输入进行了上下采样,分别从不同层加入网络,生成图像。

思考

  • 多尺度网络与 Res Net 之间的关系。
  • 随机噪声的用处?

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

基于统计方法的风格化,对内容图片和风格图片 Encode,然后通过 AdaIN 层对内容图片进行仿射变换。最后再对内容图片 Decode 得到生成图片,对生成图片再次应用 Encode 计算损失函数。
过程中只对 Decode 结构进行更新。

在 Decoder 中,BN 会使得同一批次被渲染到类似风格的不同表现,IN 会使得每个图像(的不同部位)被渲染至统一风格的不同表现。所以最终没有使用归一化。

  • BN: 对每个 channel 归一化,其中归一化参数在训练时学习。
  • IN: 对每个样本的每个 channel 归一化,归一化参数在训练时学习。
  • AdaIN: 同 IN,但是不学习归一化参数,每次直接使用样本统计量归一化。

思考

  • 究竟哪些统计量对风格影响比较大?
  • 归一化层在风格迁移中的坏处?强制迁移分布导致风格坍塌。

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注