拖动你的GAN：基于交互式点的操作生成图像流形

智源社区3年前 (2023)发布智源社区

1,017 0 0

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

解决问题：本篇论文旨在解决生成对抗网络（GAN）中控制生成图像的问题。通过“拖动”图像中的任意点，实现用户交互式精确控制生成图像的姿态、形状、表情和布局。

关键思路：本文提出了DragGAN，通过两个主要组件实现GAN的交互式控制：1）基于特征的运动监督，驱动手柄点向目标位置移动；2）新的点跟踪方法，利用辨别式生成器特征来不断定位手柄点的位置。与现有方法相比，DragGAN不需要手动注释训练数据或先验3D模型，具有更高的灵活性、精度和通用性。

其他亮点：本文的实验结果表明，DragGAN在图像操纵和点跟踪任务中优于先前的方法。同时，本文还展示了通过GAN反演对真实图像进行操纵的能力。作者开源了代码和数据集，为后续研究提供了便利。

关于作者：本文的主要作者来自德国马普计算机科学研究所和香港中文大学。Xingang Pan在CVPR、ICCV等会议上发表过多篇论文，研究方向主要包括计算机视觉、深度学习等。Christian Theobalt是计算机图形学领域的知名学者，曾获得多个国际奖项，发表过多篇高影响力论文。

相关研究：与本文相关的其他研究包括：1）”GANSpace: Discovering Interpretable GAN Controls”（Erik Härkönen等，Aalto University）；2）”GAN Prior Embedded Network for Blind Face Restoration in the Wild”（Xin Deng等，University of Technology Sydney）；3）”Adversarial Generation of Continuous Implicit Shape Representations”（Jingwei Huang等，University of California, Los Angeles）。

https://arxiv.org/pdf/2305.10973.pdf

论文摘要：这篇论文研究了一种控制生成对抗网络（GAN）的强大方法，即以用户交互的方式“拖动”图像上的任意点，精确地到达目标点。为了实现这一目标，研究人员提出了DragGAN，包括两个主要组件：1）基于特征的运动监督，驱动控制点向目标位置移动；2）一种新的点追踪方法，利用判别式生成器特征来不断定位控制点的位置。通过DragGAN，任何人都可以精确控制图像中像素的位置，从而操纵不同类别的对象的姿态、形状、表情和布局，例如动物、汽车、人类、景观等。由于这些操作是在GAN学习的生成图像流形上执行的，因此它们往往可以产生逼真的输出，即使是在挑战性场景下，如幻觉遮挡内容和形状变形，也能保持对象的刚性。定性和定量比较表明，在图像操作和点追踪任务中，DragGAN相对于先前的方法具有优势。研究人员还展示了通过GAN反演来操纵真实图像的能力。