当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

来源:机器之心 2024-06-24 13:45:12 0浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
 
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。

然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。

为了解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer:TiTok,这一Tokenizer打破了2D Tokenizer的设计局限,可以将整个图片压缩至更为紧凑的Token序列。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

  • 论文链接:https://arxiv.org/abs/2406.07550 
  • 项目链接:https://yucornetto.github.io/projects/titok.html
  • 代码链接:https://github.com/bytedance/1d-tokenizer

对于256 x 256分辨率的图片,TiTok最少仅需32个Token就可以表达,比通常2D Tokenizer的256或1024个Token显著减少。对于512 x 512分辨率的图片,TiTok最少仅需64个Token,64倍小于Stable Diffusion的VAE Tokenizer。此外,在ImageNet图像生成这一任务上,使用TiTok作为Tokenizer的生成器在生成质量和生成速度上都有显著提高。

在256分辨率,TiTok获得了1.97的FID,显著超过使用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID,不仅超过了DiT(3.04),并且相比DiT在图像生成上加速了惊人的410倍!TiTok的最好变种取得了2.13的FID,显著超过DiT的同时仍旧有着74倍的加速。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

                              TiTok仅用32个Token就可以完成高质量的图像重建与生成

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

                               图像所需Token的显著减少带来了明显更快的生成速度,但是同时维持了高质量的图像生成。

模型结构

TiTok的结构非常简单,编码器和解码器部分各自是一个ViT,在编码过程中,一组latent tokens会拼接在image patches后,在过完编码器后,仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起,一并送入解码器,从mask token序列中重建出图像。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

1D Tokenization 性质研究

研究者进行了一系列实验研究关于不同数量的用于表示图像的token,不同的tokenizer大小,重建表现,生成表现,linear probing准确率,以及训练和推理速度的比较。在这一过程中,研究者发现(1)仅需32个Token便能取得很好的重建与生成效果(2)通过增大Tokenizer的模型大小,研究者可以使用更少的Token来表示图片(3)当图片使用较少的Token来表示时,Tokenizer会学到更强的语义信息(4)使用更少的Token来表示图片时,训练和推理速度都有了显著的提升。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

此外,视频中展示了使用不同的Tokenizer大小以及Token数目时所重建出的图片,可以看到更大的Tokenizer可以在有限的Token下重建出质量更好的图像。此外,当仅有有限Token时,模型更倾向于保留显著区域有更好的重建效果。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

实验验证

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上进行了与其他方法的比较。可以看到,尽管TiTok使用有限的Token数目,但是可以和其他使用更多Token的方法取得相当的重建效果(rFID),使用较少的Token数目让TiTok在维持较高的生成图片质量(gFID)的同时有着显著快于其他方法的生成速度。

例如TiTok-L-32获得了2.77的gFID score,同时可以以每秒101.6张图片的速度进行图片生成,这一速度显著快于其他Diffusion Models (169倍快于DiT)或者Transformer Models (339倍快于ViT-VQGAN).

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

TiTok使用较少Token的优势在更高分辨率的图像生成上更加明显,其中TiTok-L-64仅使用64个Token就能完成高质量的512分辨率图像的重建与生成,生成图像的质量不仅高于DiT (2.74 v.s. 3.04),同时生成速度提高了近410倍。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

结论

在本文中,研究者专注于一个全新的1D Image Tokenizer,并提出了一种全新的Tokenizer来打破现有2D Tokenizer中的局限,进而更好的利用图像中的冗余信息。TiTok仅需少量的Token(比如32个)来表示图像,同时仍旧能进行高质量的图像重建与生成。在ImageNet的256分辨率和512分辨率生成实验中,TiTok不仅取得了超过Diffusion Models的生成质量,同时有着百倍更快的生成速度。

关于豆包大模型团队

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。

欢迎加入字节跳动豆包大模型团队,点击下方链接即可进入字节跳动 Top Seed 计划:
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

本篇关于《字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!
上一篇
CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
下一篇
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码