腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
亲爱的编程学习爱好者,如果你点开了这篇文章,说明你对《腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件》很感兴趣。本篇文章就来给大家详细解析一下,主要介绍一下,希望所有认真读完的童鞋们,都有实质性的提高。
6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。
这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。
作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。
此前,腾讯混元文生图大模型宣布全面升级并对外开源,已在 Hugging Face 平台及 Github 上发布,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。模型开源仅一个月,Github Star数达到2.4k,位于开源社区热门DiT模型前列。
混元DiT Github项目页面
在开源训练代码的同时, LoRA小规模数据集训练方案与可控制插件ControlNet的发布也让混元DiT模型的开源生态更具想象力。
LoRA模型,全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的技术。在文生图模型中,LoRA被用作一种插件,允许用户在不修改原有模型与增加模型大小的情况下,利用少量数据训练出具有特定画风、IP或人物特征的模型。
LoRA技术在文生图开源领域十分受欢迎,大量的创作者利用这种技术创造出多种多样的模型,比如使用几张个人照片,生成一个专属于某个人的高精度照相馆;或创造出盲盒、黏土等风格模型。
AI图像社区LiblibAI上的LoRA模型
混元DiT本次发布的专属LoRA插件,支持开发者最少仅需一张图即可创作出专属的模型。比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。
部分训练数据:
训练后模型的推理结果示例:
使用混元DiT LoRA训练的青花瓷生成模型
本次上线的另一个插件ControlNet,则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。
目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发ControlNet模型,让开发者直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。
腾讯混元DiT上线的三个ControlNet插件效果演示
自混元DiT模型开源以来,得到了众多开发者的支持和反馈,腾讯混元团队也一直在持续完善和优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。本月初,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%。同时模型易用性大幅提升,用户可以基于ComfyUI的图形化界面,使用混元DiT,或者通过Hugging Face Diffusers通用模型库,仅用三行代码即可调用混元DiT模型,无需下载原始代码库。
据了解,腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。
腾讯混元开源文生图大模型
官网:https://dit.hunyuan.tencent.com/
代码:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
数据制作流程:https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md
终于介绍完啦!小伙伴们,这篇关于《腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 力压GPT-4o!新王Claude 3.5 Sonnet来了,直接免费可用

- 下一篇
- 不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了
-
- 科技周边 · 人工智能 | 7分钟前 |
- 豆包AI教你设计RESTfulAPI,手把手教你搞定接口规范
- 209浏览 收藏
-
- 科技周边 · 人工智能 | 16分钟前 |
- B站必看!DeepSeek视频创作神器超详细使用教程
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 19分钟前 |
- 笔尖AI续写功能体验,三步从写作小白变大神!
- 392浏览 收藏
-
- 科技周边 · 人工智能 | 19分钟前 |
- 豆包AI手把手教你用Hadoop+Spark轻松玩转大数据!
- 276浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- 避免AI证件照“翻车”!超简单技巧大放送
- 331浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 |
- DeepSeek大模型教程:手把手教你用百度网盘高效管理文件
- 429浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- 豆包AI三步教你写出Rust安全代码,远离内存安全烦恼
- 120浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- 豆包AI代码运行流程大公开!从零到部署全揭秘
- 480浏览 收藏
-
- 科技周边 · 人工智能 | 37分钟前 |
- 豆包AI手把手教你Python内存分析,快速揪出泄漏bug!
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- 豆包AI神器实战评测!手把手教你用神回复提升评论区互动率
- 131浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 97次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 105次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 111次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 102次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 102次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览