当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

来源:机器之心 2024-05-15 19:15:11 0浏览 收藏

亲爱的编程学习爱好者,如果你点开了这篇文章,说明你对《首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用》很感兴趣。本篇文章就来给大家详细解析一下,主要介绍一下,希望所有认真读完的童鞋们,都有实质性的提高。

中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!

5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

  • 官网地址:https://dit.hunyuan.tencent.com/
  • GitHub 项目地址:https://github.com/Tencent/HunyuanDiT
  • Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • 技术报告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
 
据了解,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,即全新的 Hunyuan-DiT 架构,不仅可以支持文生图,也可以作为视频等多模态视觉生成的基础。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

为了全面比较 Hunyuan-DiT 与其他文生图模型的生成能力,腾讯混元团队构建 4 个维度的测试集,邀请超过 50 名专业评估人员进行评估,包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。

从下表结果可以看到,采用 Hunyuan-DiT 架构的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型,整体能力属于国际领先水平。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

与其他 SOTA 模型的比较。

与这些 SOTA 模型的定性比较结果如下图所示。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

全新 DiT 架构
腾讯混元文生图要做开源模型 No.1
 
大模型的优异表现,离不开领先的技术架构。

升级后的腾讯混元文生图大模型采用了全新的 DiT 架构(DiT 即 Diffusion With Transformer),这是 OpenAI Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。
 
过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量增加,基于 Transformer 架构的扩散模型展现了更好的扩展性,有助于进一步提升模型生成质量及效率。Sora 很好地说明了这一点。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

Hunyuan-DiT 的模型结构如下图 7 所示,采用了创新的网络架构,结合了双语 CLIP 和多语言 T5 编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

在 DiT 架构之上,腾讯混元团队支持了中英双语文本提示生成图像,并在算法层面优化模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

此外,混元文生图大模型在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

更多多轮对话生成示例如下图所示。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

中文原生也是腾讯混元文生图大模型的一大亮点。此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。

作为首个中文原生的 DiT 模型,混元文生图具备了中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。我们可以看以下一些生成示例。

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

腾讯混元文生图还更擅长细粒度文本提示生成

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过了 20%,不仅在语义理解、画面质感与真实性方面全面提升,而且在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

这一次
腾讯混元选择全面开源文生图模型
 
腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

腾讯混元文生图大模型的开源,填补了中文原生 DiT 文生图架构的缺失,有助于更多的开发者和创作者参与进来,一起探索、共创基于 DiT 架构的视觉生成生态,更好地去验证、挖掘这个技术架构的潜力。
 
腾讯文生图负责人芦清林表示:「腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。」
 
基于腾讯开源的文生图模型,开发者及企业无需从头训练,即可以直接用于推理,并可基于混元文生图打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。
 
此外,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样原生插件,推动中文文生图技术研发和应用。

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
如何使用 Golang 构建 RESTful API 并使用 Swagger 文档?如何使用 Golang 构建 RESTful API 并使用 Swagger 文档?
上一篇
如何使用 Golang 构建 RESTful API 并使用 Swagger 文档?
大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘
下一篇
大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    12次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    11次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    10次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    16次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码