当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 字节复旦团队创新提出元提示策略,提升图像理解力并刷新SOTA扩散模型

字节复旦团队创新提出元提示策略,提升图像理解力并刷新SOTA扩散模型

来源:51CTO.COM 2024-01-20 14:36:29 0浏览 收藏

本篇文章给大家分享《字节复旦团队创新提出元提示策略,提升图像理解力并刷新SOTA扩散模型》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

Text-to-image(T2I)扩散模型在生成高清晰度图像方面表现卓越,这要归功于其在大规模图像-文本对上的预训练。

这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 

最近,字节跳动和复旦大学的团队提出了扩散模型来处理视觉任务。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

论文地址:https://arxiv.org/abs/2312.14733

开源项目:https://github.com/fudan-zvg/meta-prompts

团队的关键洞察是将可学习的元提示引入预训练的扩散模型中,以提取适用于特定感知任务的特征。

技术介绍 

团队将text-to-image扩散模型作为特征提取器应用于视觉感知任务中。

首先,输入图像经过VQVAE编码器压缩,分辨率降低为原大小的1/8,生成latent space特征表示。值得注意的是,VQVAE编码器参数固定,不参与后续训练。

下一步,将未添加噪声的数据送入UNet进行特征提取。为了更好地适应不同任务,UNet同时接收调制的时间步嵌入和多个元提示,以生成与形状一致的特征。

在整个过程中,为了增强特征表达,该方法进行了步的recurrent refinement。这使得UNet内不同层的特征能够更好地交互融合。在第次循环中,UNet的参数由特定的可学习的时间调制特征调节。 

最终,UNet生成的多尺度特征输入到专门为目标视觉任务设计的解码器中。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

可学习的元提示(meta prompts)设计 

Stable diffusion model采用UNet架构,通过交叉注意力将文本提示融入图像特征中,实现了文生图。这种整合确保了图像生成在语境和语义上的准确性。

然而,视觉感知任务的多样性超出了这一范畴,因为图像理解面临着不同的挑战,往往缺乏文本信息作为指导,使得以文本驱动的方法有时显得不切实际。 

为应对这一挑战,技术团队的方法采用了更为多样的策略——不依赖外部文本提示,而是设计了一种内部的可学习元提示,称为meta prompts,这些meta prompts被集成到扩散模型中,以适应感知任务。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

Meta prompts以矩阵 的形式表示,其中表示meta prompts的数量,表示维度。具备meta prompts的感知扩散模型避免了对外部文本提示的需求,如数据集类别标签或图像标题,也无需预训练的文本编码器来生成最终的文本提示。 

Meta prompts可以根据目标任务和数据集进行端到端的训练,从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息。比如:

- 在语义分割任务中,meta prompts有效地展示了对类别的识别能力,相同的meta prompts倾向于激活同一类别的特征。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

- 在深度估计任务中,meta prompts表现出对深度的感知能力,激活值随深度变化,使prompts能够集中关注一致距离的物体。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

- 在姿态估计中,meta prompts展现出一套不同的能力,特别是关键点的感知,这有助于人体姿态检测。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

这些定性结果共同突显了技术团队提出的meta prompts在各种任务中对任务相关激活能力的有效性。

作为文本提示的替代品,meta prompts很好地填补了了text-to-image扩散模型与视觉感知任务之间的沟壑。

基于元提示的特征重组 

扩散模型通过其固有的设计,在去噪UNet中生成多尺度特征,这些特征在接近输出层时聚焦于更细致、低级的细节信息。

虽然这种低级细节对于强调纹理和细粒度的任务来说足够,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。

因此,不仅需要生成丰富的特征,确定这些多尺度特征的哪种组合方式可以为当前任务提供最佳表征也非常重要。 

这就是meta prompts的作用所在——

这些prompts在训练过程中保存了与所使用数据集特定相关的上下文知识。这种上下文知识使meta prompts能够充当特征重组的过滤器,引导特征选取过程,从UNet产生的众多特征中筛选出与任务最相关的特征。 

团队使用点积的方式将UNet的多尺度特征的丰富性与meta prompts的任务适应性结合起来。 

考虑多尺度特征,其中每个。和表示特征图的高度和宽度。Meta prompts 。每个尺度上重排的特征的计算为: 

最后,这些经过meta prompts过滤的特征随后输入到特定任务的解码器中。 

基于可学习的时间调制特征的recurrent refinement 

在扩散模型中,添加噪声然后多步去噪的迭代过程构成了图像生成的框架。

受此机制的启发,技术团队为视觉感知任务设计了一个简单的recurrent refinement过程——没有向输出特征中添加噪声,而是直接将UNet的输出特征循环输入到UNet中。

同时为了解决随着模型通过循环,输入特征的分布会发生变化但UNet的参数保持不变的不一致的问题,技术团队对于每个循环引入了可学习的独特的timestep embeddings,以调制UNet的参数。

这确保了网络对于不同步骤中输入特征的变化性保持适应性和响应性,优化了特征提取过程,并增强了模型在视觉识别任务中的性能。 

结果显示,该方法在多个感知任务数据集上都取得了最优。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

应用落地和展望 

该文章提出的方法和技术有广泛的应用前景,可以在多个领域内推动技术的发展和创新:

  1. 视觉感知任务的改进:该研究能够提升各种视觉感知任务的性能,如图像分割、深度估计和姿态估计。这些改进可应用于自动驾驶、医学影像分析、机器人视觉系统等领域。 
  2. 增强的计算机视觉模型:所提出的技术可以使计算机视觉模型在处理复杂场景时更加准确和高效,特别是在缺乏明确文本描述的情况下。这对于图像内容理解等应用尤为重要。 
  3. 跨领域应用:该研究的方法和发现可以激励跨领域的研究和应用,比如在艺术创作、虚拟现实、增强现实中,用于提高图像和视频的质量和互动性。 
  4. 长期展望:随着技术的进步,这些方法可能会进一步完善,带来更先进的图像生成和内容理解技术。 

团队介绍

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。 

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中,欢迎点击「阅读原文」查看。

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
OPPO Find X7 Ultra推动AI服务向人类更好地服务:提供卓越的人工智能体验OPPO Find X7 Ultra推动AI服务向人类更好地服务:提供卓越的人工智能体验
上一篇
OPPO Find X7 Ultra推动AI服务向人类更好地服务:提供卓越的人工智能体验
Win11中设置幻灯片放映的步骤
下一篇
Win11中设置幻灯片放映的步骤
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    6次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    24次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码