重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
2021年5月14日,腾讯宣布发布的混元文生图大模型全面升级并对外开源。目前已在Hugging Face平台及Github上发布,包含模型权限、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
这是业内首个中文原生的DiT架构文生成图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生成图大模型采用了与sora一致的DiT架构,不仅可支持文生成,也可作为视频等多模态视觉生成的基础。
最新的腾讯混元文生成果展示数据显示,稳定扩散模型是目前效果最好的开源文生成模型;整体能力属于国际领先水平。
自研新一代文生图模型
大模型的优异表现,离不开领先的技术架构。升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和Stable Diffusion 3的同款架构和关键技术,是一种基于Transformer架构的扩散模型。
深度学习模型的发展已经超出了传统的 U-Net 架构,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生成模型之一。从2023年7月起,腾讯混元文生成团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生成大模型已全面升级为 DiT 架构。
在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多256字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生成图和对话能力,可以实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。
中文原生也是腾讯混元文生图大模型的一大亮点,此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。
评测结果显示,新一代腾讯混元文生成大模型视觉生成效果相比前代提升超过20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。
为了全面比较HunyuanDiT与其他模型的生成能力,研究团队构建了4个维度的测试集,包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。
目前Hunyuan-DiT已经在HuggingFace和Github上开源,感想趣的朋友可亲手体验一番。
全面开源,惠及行业
腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。《央视新闻》《新华日报》《深圳特区报》《南方都市报》《羊城晚报》等20余家媒体,也已经将腾讯混元文生图用于新闻内容生产。
腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”
基于腾讯此次开源的文生图模型,开发者及企业无需重头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。
同时,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。
据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块,目前在Github上已累计获得超 47 万开发者关注及点赞。
今天关于《重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于腾讯,混元大模型,Sora,DiT,文生图的内容请关注golang学习网公众号!

- 上一篇
- 苹果凌晨推送iOS 17.5/iPadOS 17.5更新:新增彩虹墙纸与多项实用功能

- 下一篇
- win10杀毒软件怎么关 关闭win10自带防火墙方法
-
- 科技周边 · 人工智能 | 5秒前 | java 关键词: PHP
- 豆包AI数据清洗代码全解析
- 215浏览 收藏
-
- 科技周边 · 人工智能 | 59秒前 | 豆包AI Excel数据
- 豆包AI如何处理Excel数据?智能表格分析教程
- 440浏览 收藏
-
- 科技周边 · 人工智能 | 2分钟前 | 世界先进 晶圆代工
- 世界先进5月营收35.5亿,双降引发热议
- 428浏览 收藏
-
- 科技周边 · 人工智能 | 11分钟前 | 应用部署 豆包AI
- 豆包AI部署方法与应用指南
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 12分钟前 |
- 豆包AI编程教程与开发指南
- 463浏览 收藏
-
- 科技周边 · 人工智能 | 17分钟前 |
- 豆包AI生成Python测试用例的3种方式
- 231浏览 收藏
-
- 科技周边 · 人工智能 | 26分钟前 | 安装 DeepSeek
- 苹果DeepSeek安装教程及使用指南
- 430浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 | 豆包AI
- 豆包AI生成Markdown的高效写作技巧
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 | 性能优化 Apache配置
- 豆包AI优化Apache配置提升性能方法
- 248浏览 收藏
-
- 科技周边 · 人工智能 | 30分钟前 | 豆包AI 编程辅助
- 豆包AI代码生成技巧与编程教程
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 39分钟前 |
- 各国证件照AI生成参数设置指南
- 217浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 | 代码优化 豆包AI
- 豆包AI代码优化技巧全解析
- 398浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 104次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 114次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 123次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 114次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 111次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览