当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > DragGAN开源三天Star量23k，这又来一个DragDiffusion

DragGAN开源三天Star量23k，这又来一个DragDiffusion

来源：51CTO.COM 2023-08-02 16:49:42 0浏览收藏

小伙伴们对科技周边编程感兴趣吗？是否正在学习相关知识点？如果是，那么本文《DragGAN开源三天Star量23k，这又来一个DragDiffusion》，就很适合你，本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点，希望对大家的知识积累有所帮助！

在 AIGC 的神奇世界里，我们可以在图像上通过「拖曳」的方式，改变并合成自己想要的图像。比如让一头狮子转头并张嘴：

DragGAN开源三天Star量23k，这又来一个DragDiffusion

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文，于上个月放出并已被 SIGGRAPH 2023 会议接收。

一个多月过去了，该研究团队于近日放出了官方代码。短短三天时间，Star 量便已突破了 23k，足可见其火爆程度。

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

GitHub 地址：https://github.com/XingangPan/DragGAN

无独有偶，今日又一项类似的研究 —— DragDiffusion 进入了人们的视线。此前的 DragGAN 实现了基于点的交互式图像编辑，并取得像素级精度的编辑效果。但是也有不足，DragGAN 是基于生成对抗网络（GAN），通用性会受到预训练 GAN 模型容量的限制。

在新研究中，新加坡国立大学和字节跳动的几位研究者将这类编辑框架扩展到了扩散模型，提出了 DragDiffusion。他们利用大规模预训练扩散模型，极大提升了基于点的交互式编辑在现实世界场景中的适用性。

虽然现在大多数基于扩散的图像编辑方法都适用于文本嵌入，但 DragDiffusion 优化了扩散潜在表示，实现了精确的空间控制。

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

论文地址：https://arxiv.org/pdf/2306.14435.pdf
项目地址：https://yujun-shi.github.io/projects/dragdiffusion.html

研究者表示，扩散模型以迭代方式生成图像，而「一步」优化扩散潜在表示足以生成连贯结果，使 DragDiffusion 高效完成了高质量编辑。

他们在各种具有挑战性的场景（如多对象、不同对象类别）下进行了广泛实验，验证了 DragDiffusion 的可塑性和通用性。相关代码也将很快放出、

下面我们看看 DragDiffusion 效果如何。

首先，我们想让下图中的小猫咪的头再抬高一点，用户只需将红色的点拖拽至蓝色的点就可以了：

DragGAN开源三天Star量23k，这又来一个DragDiffusion

接下来，我们想让山峰变得再高一点，也没有问题，拖拽红色关键点就可以了：

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

DragGAN开源三天Star量23k，这又来一个DragDiffusion 还想让雕塑的头像转个头，拖拽一下就能办到：

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

DragGAN开源三天Star量23k，这又来一个DragDiffusion 让岸边的花，开的范围更广一点：

DragGAN开源三天Star量23k，这又来一个DragDiffusion

方法介绍

本文提出的 DRAGDIFFUSION 旨在优化特定的扩散潜变量，以实现可交互的、基于点的图像编辑。

为了实现这一目标，该研究首先在扩散模型的基础上微调 LoRA，以重建用户输入图像。这样做可以保证输入、输出图像的风格保持一致。

接下来，研究者对输入图像采用 DDIM inversion（这是一种探索扩散模型的逆变换和潜在空间操作的方法），以获得特定步骤的扩散潜变量。

在编辑过程中，研究者反复运用动作监督和点跟踪，以优化先前获得的第 t 步扩散潜变量，从而将处理点的内容「拖拽（drag）」到目标位置。编辑过程还应用了正则化项，以确保图像的未掩码区域保持不变。

最后，通过 DDIM 对优化后的第 t 步潜变量进行去噪，得到编辑后的结果。总体概览图如下所示：

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

实验结果

给定一张输入图像，DRAGDIFFUSION 将关键点（红色）的内容「拖拽」到相应的目标点（蓝色）。例如在图（1）中，将小狗的头转过来，图（7）将老虎的嘴巴合上等等。

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

下面是更多示例演示。如图（4）将山峰变高，图（7）将笔头变大等等。

DragGAN开源三天Star量23k，这又来一个DragDiffusion 图片

DragGAN开源三天Star量23k，这又来一个DragDiffusion

今天关于《DragGAN开源三天Star量23k，这又来一个DragDiffusion》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于开源,图片的内容请关注golang学习网公众号！

开源图片

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

上一篇: Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会

下一篇: 亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会

查看更多

最新文章

科技周边 · 人工智能 | 12分钟前 |

Perplexity清空PDF数据方法详解

115浏览收藏
科技周边 · 人工智能 | 15分钟前 |

AI绘画能参赛吗？艺术争议与评判标准

277浏览收藏
科技周边 · 人工智能 | 24分钟前 |

Figma版本冲突怎么解决？Compare Changes轻松合并

301浏览收藏
科技周边 · 人工智能 | 27分钟前 |

AI秒变行业专家，实战技巧全解析

155浏览收藏
科技周边 · 人工智能 | 27分钟前 | ChatGPT ChatGPT5

ChatGPT5.5注册教程_新手注册指南

464浏览收藏
科技周边 · 人工智能 | 41分钟前 |

通义千问PRD生成教程：一句话搞定需求文档

173浏览收藏
科技周边 · 人工智能 | 45分钟前 | openclaw

OpenClaw如何打造AI网站？

302浏览收藏
科技周边 · 人工智能 | 53分钟前 | 爱奇艺纳豆pro

爱奇艺纳豆Pro是爱奇艺推出的视频播放软件，主要用于观看爱奇艺平台的影视内容。它提供高清流畅的播放体验，并可能包含一些特色功能，如广告过滤、多屏互动等，方便用户更便捷地享受视频资源。不过，需要注意的是，“纳豆Pro”并非爱奇艺官方正式产品名称，可能是用户对某款软件的非正式称呼或误称。建议核实具体名称或查看官方信息以获取准确信息。

255浏览收藏
科技周边 · 人工智能 | 1小时前 |

Perplexity Team版如何平摊订阅成本

362浏览收藏
科技周边 · 人工智能 | 1小时前 | Hermes Agent HermesAgent

开发者选项开启指南：HermesAgent无线调试方法

466浏览收藏
科技周边 · 人工智能 | 1小时前 |

腾讯混元写文案技巧解析

100浏览收藏
科技周边 · 人工智能 | 1小时前 | ChatGPT

打工人的私有云AI部署方案

138浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4517次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4870次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4743次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

6602次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

5104次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码