“艺术风格神经算法”的实现
这是 Leon Gatys、Alexander Ecker 和 Matthias Bethge 的论文“艺术风格的神经算法”中描述的方法的 Torch7 实现 ( http://arxiv.org/abs/1508.06576 )。
(较长的动画)
依赖关系
- torch7
- Imagine-nn(用于 Inception 网络)
- CUDA 6.5+(除非在 CPU 上运行 - 见下文)
Imagine-nn(以及您缺少的任何其他 Torch 软件包)可以通过 Luarocks 安装:
luarocks install inn
用法
首先,通过运行下载脚本来下载模型:
bash download_models.sh
这将下载 VGG 和 Inception 网络的模型权重。
基本用法:
qlua main.lua --style <style.jpg> --content <content.jpg> --style_factor <factor>
其中style.jpg是提供最终生成图像样式的图像,content.jpg是提供内容的图像。style_factor是一个常数,控制生成的图像强调风格而非内容的程度。默认情况下,它设置为 2E9。
这会使用 Karen Simonyan 和 Andrew Zisserman 的 VGG-19 网络生成图像 ( http://www.robots.ox.ac.uk/~vgg/research/very_deep/ )。
其他选项:
- model:{起始,vgg}。要使用的 Convnet 模型。Inception是指Google的Inception架构。默认为 VGG。
- num_iters:优化步骤数。默认值为 500。
- size:生成图像的长边尺寸。设置为 0 以使用内容图像的大小。默认值为 500。
- display_interval:图像显示之间的迭代次数。设置为 0 可抑制图像显示。默认值为 20。
- smoothness:控制生成图像的平滑度的常数(全变差范数正则化强度)。使用 Inception 模型时很有用(设置为 ~5E-3)。默认值为 0。
- init:{图像,随机}。优化图像的初始化模式。image使用内容图像进行初始化;random用随机高斯噪声初始化。默认为image.
- backend:{cunn,cudnn}。神经网络 CUDA 后端。cudnn需要CuDNN R3 的Torch 绑定。
- optimizer:{SGD,LBFGS}。优化算法。lbfgs每次迭代速度较慢并消耗更多内存,但可能会产生更好的结果。默认为lbfgs.
- cpu:针对 CPU 而不是 GPU 进行优化(仅支持 VGG 模型)。
内存不足?
具有默认 L-BFGS 优化器的 VGG 网络给出了最佳结果。不过,此设置也需要大量 GPU 内存。如果遇到 CUDA 内存不足错误,请尝试使用 Inception 架构或 SGD 优化器运行:
qlua main.lua --style <style.jpg> --content <content.jpg> --model inception --optimizer sgd
您还可以尝试减小生成图像的大小:
qlua main.lua --style <style.jpg> --content <content.jpg> --size 300
如果所有其他方法都失败了(或者如果您没有兼容 CUDA 的 GPU),您可以在 CPU 上进行优化:
qlua main.lua --style <style.jpg> --content <content.jpg> --cpu
例子
爱德华·蒙克《呐喊》风格的埃菲尔铁塔:
(较长的动画)
毕加索化的奥巴马:
(较长的动画)
实施细节
使用 Inception 网络时,以下层的输出用于优化样式:conv1/7x7_s2, conv2/3x3, inception_3a, inception_3b, inception_4a, inception_4b, inception_4c, inception_4d, inception_4e。
以下层的输出用于优化内容:inception_3a, inception_4a.
默认情况下,优化图像使用内容图像进行初始化;该实现还适用于白噪声初始化,如论文中所述。
为了减少生成图像中的高频“屏蔽门”噪声(特别是在使用 Inception 网络时),应用了全变分正则化(来自cnn-vis by jcjohnson的想法)。
项目地址:https://github.com/kaishengtai/neuralart