当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 南大、腾讯推出更稳更准的StableDrag拖拽P图技术

南大、腾讯推出更稳更准的StableDrag拖拽P图技术

来源：51CTO.COM 2024-03-22 08:36:14 0浏览收藏

南京大学和腾讯联合开发了一种名为 StableDrag 的拖拽 P 图技术，它通过判别式点跟踪和置信动作监督，解决了现有拖拽技术的点跟踪不精准和动作监控不完善问题。StableDrag 显著提升了拖拽编辑的稳定性和精确性，使其能够更精准地修改和合成图像，创造出更加生动和有趣的作品。

在去年的五月份，一个名为 DragGAN 的研究引起了人工智能领域的关注。这项研究让图片变得“活”起来，只需动动鼠标就能实现。通过拖拽的方式，我们可以修改和合成出我们想要的图像，例如在下图中让一只狮子转过头来并张开嘴巴。这种技术的突破为图像编辑和合成带来了新的可能性，让用户能够以更直观的方式进行图像处理，从而创造出更加生动和有趣的作品。

这一研究成果源自华人学者领导的项目“Drag Your GAN”，最近发表在SIGGRAPH 2023会议上。该项目已在GitHub上获得了34.5k的Star。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

项目地址：https://github.com/XingangPan/DragGAN

新加坡国立大学和字节跳动合作推出了DragDiffusion研究项目，利用大规模预训练扩散模型，显著提高了基于点的交互式编辑在实际场景中的适用性。这一技术的效果可以通过动图展示。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

虽然取得了重要的成就，但类似的拖拽方案存在两个主要问题，即点跟踪不精准和动作监控不完善，可能导致拖拽效果无法达到预期。

南京大学和腾讯的研究者提出了一种判别式点跟踪方法，以解决现有系统的缺陷。通过基于置信的潜在增强策略，他们构建了一个名为StableDrag的拖拽编辑框架，提升了动作监督的稳定性和精确性。

判别式点跟踪方法能够准确定位更新的操纵点，有助于提升长程操纵的稳定性。另外，基于置信的潜在增强策略能够确保在所有操纵步骤中，优化的潜在变量具有高质量，从而提高系统的性能表现。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

论文标题：StableDrag: Stable Dragging for Point-based Image Editing
论文地址：https://arxiv.org/pdf/2403.04437.pdf
项目地址：https://stabledrag.github.io/

得益于这些独特的设计，研究者实例化了两种类型的图像编辑模型：StableDrag-GAN 和 StableDrag-Diff。这两个模型在 DragBench 上进行了广泛的定性和定量评估，结果都显示出更加稳定的拖拽效果。

从下面视频中，我们可以看到 StableDrag-GAN 的拖拽全过程。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

如下为 StableDrag-GAN 的更多拖拽示例。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

StableDrag-Diff 的拖拽示例如下所示。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

方法介绍

如图 1 所示，由于不精确的点跟踪和不完整的动作监督，DragGAN 和 DragDiffusion 对图像的编辑质量不高。因此，在这项工作中，本文将注意力集中在当前的拖拽技术上，以实现更稳定和更精确的图像操作。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

拖拽 pipeline 如图 2 所示，包括判别点跟踪模块（ Discriminative PT ）和置信动作监督模块（ Confident MS ）。

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

判别点跟踪

本文提出了一种更具辨别力但简单的点跟踪算法。在本文的设计中，点跟踪模型构成卷积层的权重，并提供点分类得分作为输出。具体来说，本文建议学习一个函数拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造，其中 g 为卷积函数，为当前操纵点（ handle point ） p_i 周围的局部 patch，z_i 为学习到的跟踪模型。详细流程如上图 2 所示。

在此过程中，跟踪点 p_i 的更新方式为：

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

跟踪模型 z_i 是一个大小为 1 × C × 1 × 1 的卷积滤波器，其学习过程概述如图 3 所示。本文使用 f_i 初始化 z_i 并在以下损失的监督下更新权重:

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

置信动作监督

本文提出了一种基于置信度的潜在增强策略，如图 2 所示。首先，本文引入跟踪得分最大值即 s_i，来表示当前的监督置信度，以及置信度分数在 step-1 产生增强策略的阈值。通常，当模型足够自信地识别当前状态时，本文会采用论文中等式（1）的原始动作监督。如果当前的置信度得分低于预定义的阈值，则采用初始模板进行监督。具体强化监督定义为：

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造