Generative model is more than just GANs
1. 导读
近些年来,随着深度学习和对抗生成网络的兴起,图像生成领域取得了巨大的进步。然而,对于计算机视觉领域的生成问题,并非只有生成对抗网络这样唯一的解决途径。在SFFAI22我的演讲中,我们将以两篇工作为例,介绍常见的生成模型,以及对于生成模型中的不同问题我们的解决方案:
With GAN: 在肖像编辑的问题中,我们怎么利用GAN同时解决多样性,高质量和可控性的问题。
Without GAN: 在图像风格迁移的任务中,我们怎么解决局部信息和全局信息难以同时保留的问题。
2. 具体内容推文分享
1. 首先简单介绍了常见的生成模型,如AE/VAE, GAN, Glow等。
2. 介绍了一个用GAN解决人脸肖像编辑任务的例子。前人在这方面的工作有着以下一些问题:或者专注于特定的任务(eye in-painting),或者需要大量标注了的表情的数据(GANimation),或者生成的人脸质量不高(neural face editing),我们希望能有一种通用的,高质量的,可控的人脸肖像编辑的方法。基于此,我们提出了我们的论文”Mask-Guided Portrait Editing with Conditional GANs”。
图一 我们的算法框架
我们的网络主要分为三个部分,分别称为Local Embedding Sub-Network, Mask-Guided Generative Sub-Network, Background Fusing Sub-Network,分别用来对局部特征编码,借助人脸分割图片进行真实人脸渲染和前景背景融合。
我们进行了对比实验来分别验证了三个子网络的有效性,通过进行人脸图像编辑,人脸交换,渲染人脸的实验来证明了我们的方法具有通用,高质量,可控的特点。此外,由于我们的方法具有从人脸分割图片到人脸一对多的特性,我们将其用于人脸图像分割的数据增强,也能得到更好的结果。我们也展示了我们的方法在极端条件下的结果,来证明我们的方法具有很好的鲁棒性。
图二 肖像编辑的实验结果
3. GAN是一个强有力的工具,然而有些情况并不适合用GAN来解决,下面举了一个图像风格迁移的例子。
之前的图像风格迁移的方法一般或者注重于全局风格特征,或者注重于局部风格特征统,我们一般用
图三 全局风格损失函数
来衡量全局风格特征,用
图四 局部风格损失函数
来衡量局部风格特征。我们希望能提出一种简单快速的算法,同时兼顾到两者。
在论文”Arbitrary Style Transfer with Deep Feature Reshuffle”中, 提出利用深层特征重排列(deep feature reshuffle)来做到这一点。
图五 图像层面的重排列(reshuffle)示意图
核心想法是通过深层特征重排列,我们可以同时最小化全局风格损失函数与局部风格损失函数。我们在理论上证明了这一点。
图六 我们的核心想法的简短理论证明
在实际运算的过程中,我们对重排列的强约束进行了放松,并提出了一种快速的近似算法。通过在多层进行重排列,并逐层用EM算法进行优化,我们能得到同时兼顾全局风格与局部风格的结果。我们也在纹理生成等相关任务上验证了我们的想法的有效性。
图七 我们风格迁移的实验结果
如果我们直接用GAN来做这样的任务,一方面我们很难解释清楚生成网络中到底做了什么,另一方面不能直接对任意给定的两张图片进行风格迁移。我们选择了从理论上去分析问题,根本的解决了这样的问题,并在实验上能取得显著更好的结果。这启发我们不能遇到生成类的问题都想着直接利用生成对抗网络来做,一定要仔细分析问题,再选择合适的工具。
3. Take home message
生成对抗网络是一个很强大的工具。
我们一定不能盲目使用生成对抗网络,对于不同的任务要仔细分析问题。
现在生成模型方面还有很多能做的东西,大家可以仔细思考选择自己的课题。
4. Reference
[1]Arbitrary style transfer with deep feature reshuffle. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8222–8231, 2018.
[2]Eye in-painting with exemplar generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7902–7911, 2018. 1
[3]Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018. 1
[4]Neural face editing with intrinsic image disentangling. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 5444–5453. IEEE, 2017. 1
[5]Mask-Guided Portrait Editing with Conditional GANs. Will be published in CVPR2019.
[6]High-resolution image synthesis and semantic manipulation with conditional gans. arXiv preprint arXiv:1711.11585, 2017.
[7]Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.
版权声明