当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 六年、六届学生接力,共铸上交大图像合成工具箱libcom

六年、六届学生接力,共铸上交大图像合成工具箱libcom

来源:机器之心 2024-10-15 09:48:34 0浏览 收藏

科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《六年、六届学生接力,共铸上交大图像合成工具箱libcom》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!


arXiv:2106.14490v5

如果你对 arXiv 的版本号有所了解,你就知道这篇论文已经更新了 4 次,现在已经来到了第 5 个版本。实际上,这个 arXiv 编号属于上海交通大学牛力团队一篇持续更新了四年的综述报告。 

该综述介绍了图像合成(image composition)领域需要解决的问题和应运而生的子任务,总结了各个子任务的数据集、传统方法、深度学习方法和实验现象,从鸿蒙初辟写到尘埃落地。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
  • 论文标题:Making Images Real Again: A Comprehensive Survey on Deep Image Composition
  • 论文地址:https://arxiv.org/abs/2106.14490v5

除了持续更新这份关于图像合成的综述,牛力团队还在持之以恒地研发和迭代一个图像合成工具箱:libcom。而这项工作更是已经持续了六年!

该团队自 2018 年底就开始从事图像合成领域的研究,从数据(10 + 原创数据集)到模型(30 + 原创模型)、论文(20 + 已发表论文),再到工具箱(libcom),历时六年,耗资数百万,由六届学生接力完成。

其中,所有数据集的每张图片都经过 2~3 人检查,以严格保证数据集的质量。所有模型的代码都经过 2~3 人检查,以确保没有严重的 bug。该团队打趣地表示:「如果有严重的 bug 请尽快打脸。」
六年、六届学生接力,共铸上交大图像合成工具箱libcom
在多年研究积累的基础上,该实验室于 2023 年底推出了尽量无需训练微调、对任意图片开箱即用的图像合成工具箱 libcom。并且牛力老师表示:「该工具箱的形式也是我们首创的,体现了我们对 image composition 领域的理解。」

截至 2024 年 10 月,libcom 已被下载安装了 1.2 万次。

六年、六届学生接力,共铸上交大图像合成工具箱libcom

  • 项目地址:https://github.com/bcmi/libcom

可以看到,libcom 的 logo 是一个半人马的形象,实际上这正是为了体现图像合成的目标:融合不同的图像元素。这个半人马就是人和马的融合,同时 logo 中还添加了装饰性的蓝圈和黄圈的融合。另一个有趣的细节是,由于蓝色和黄色的过渡色是绿色,因此半人马系上了一条绿色的腰带。

具体能力上,libcom 集成了十几项图像合成功能(每个功能都有一到两个简单有效的方法),实现了对图像合成的全方位覆盖,并且每一个功能都有对应的仓库。牛力老师谦虚地说:「经过近一年的迭代,大多数功能的效果还凑合。」

另外值得一提的是,每个功能对应的仓库中都有训练代码。这是该团队专门为用户微调准备的:如果用户发现某项功能在自己的数据集上表现欠佳,原因很可能是数据差异,因此用户只需用自己收集的训练数据微调模型,替换掉原来的 checkpoint,就能让这些功能发挥出自己的完整实力。

libcom 的功能

在介绍 libcom 的十几项功能之前,我们首先要了解什么是图像合成(image composition)。 

图像合成是图像编辑(image editing)技术的一种,而图像编辑的原子操作包括增、删、改。其中「增」这个研究方向就叫做图像合成,指的是在图像中添加元素。另外,「删」是指从图像中擦除元素,该研究方向叫做图像填充(image inpainting)。「改」是指改变图像中元素的属性,该研究方向叫做属性编辑(attribute manipulation)。其余复杂的图像编辑操作皆可转化为「增」、「删」、「改」这三个原子操作的排列组合。 

因此,可以说图像合成在图像编辑的版图中三分天下居其一,并且其在虚拟现实、艺术创作、电商广告、数据增广等领域有着广泛应用。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
libcom 的十几项功能涵盖了图像合成的方方面面,从评估合成图的质量到得到高质量合成图:

1. get_composite_image:通过剪切粘贴、alpha 融合和泊松融合混合前景背景,如下图所示。这些是最简单的传统图像融合方法。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
2. OPAScoreModel:输入合成图和前景掩码,判断前景物体的放置(位置、大小)是否合理。输出的分数介于 [0,1] 之间,1 表示合理,0 表示不合理。在下图中,左边的合成图分数为 1,右边的合成图分数为 0。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
3. FOPAHeatMapModel: 输入一对背景图片和前景物体,输出该物体按照不同尺寸放在背景图片不同位置得到的合成图的合理性分数。假设有 K 个离散的前景物体尺寸,背景图片大小为 H*W, 则输出 H*W*K 的热力图。热力图上的每个像素对应一个放置的合理性分数,因此根据热力图可以获取合理的前景物体放置框。下图展示了单个前景物体尺寸的热力图以及根据热力图得到的前景物体放置框。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
4. color_transfer: 传统的颜色迁移方法,用于将背景的颜色迁移到前景,适用于简单场景的图像和谐化。下图是合成图和颜色迁移后的结果。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
5. ImageHarmonizationModel:输入合成图和前景掩码,图像和谐化模型调整前景的光照使其与背景和谐,输出和谐化结果。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
6. PainterlyHarmonizationModel:艺术图像和谐化与图像和谐化类似,区别在于背景是艺术图片。输入合成图和前景掩码,艺术图像和谐化模型调整前景的风格 (颜色、纹理、笔触等) 使其与背景一致,输出和谐化结果。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
7. HarmonyScoreModel: 输入合成图和前景掩码,判断前景和背景的光照是否匹配,输出前景与背景的和谐化分数。分数介于 [0,1] 之间,1 表示和谐,0 表示不和谐。在下图中,左边的合成图分数为 0.25,右边的合成图分数为 0.72。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
8. InharmoniousLocalizationModel: 输入一张图片,输出该图片不和谐区域的掩码。下图展示了合成图和模型预测的不和谐区域。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
9. FOSScoreModel: 输入一张合成图,预测前景和背景在几何和语义上的适配性分数,包括前景和背景的透视角度是否一致、前景物体的语义上下文是否合理等等。输出的适配性分数介于 [0,1] 之间,1 表示适配,0 表示不适配。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
10. ShadowGenerationModel: 输入一张合成图和前景掩码,为前景物体在背景上生成合理的阴影。该功能不是很稳定,通常每随机生成 5 张会有 1~2 张的阴影形状较好。下图展示了随机采样 5 次生成的结果。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
11. ControlComModel:输入一对背景图片和前景物体,把前景物体插入背景图片指定位置(黄色边界框),保持前景物体的姿态不变,做图像融合或者图像和谐化。两者的区别在于图像和谐化需要进一步调整前景物体的光照使其与背景和谐。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
12. MureObjectStitchModel: 输入一对背景图片和前景物体 (支持多张参考图),把前景物体插入背景图片指定位置(黄色边界框),调整前景物体的姿态和光照,得到合理的合成图。模型对于细节简单的物体和常见物体效果较好。对于细节复杂的物体,该团队建议用前景物体的 5~10 张图片花 10 分钟微调模型,这样一来,该模型的细节保留能力会大幅提升。该团队也提供了微调模型的代码。微调模型之后替换原来的 checkpoint 即可。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
libcom 背后的技术

通常而言,图像合成的用法是把一个前景物体插入到一张背景图片中,得到一张合成图。但是通过简单的剪切粘贴得到的合成图会存在诸多问题,我们可以将这些问题都看作是前景和背景不一致问题,其中包括外观不一致性几何不一致性语义不一致性。三种不一致性又可进一步分解成若干子问题(边界、光照、阴影、放置、遮挡、视角等)。

为了解决这些子问题,研究社区又提出了很多子任务(如图像融合、图像和谐化、阴影生成、物体放置等)。在图像合成中,不一致性(inconsistency)、子问题(issue)、子任务(sub-task)三者之间的关系如下图所示。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
上述这些子任务可以串行(sequential pipeline)或者并行(parallel pipeline)执行,以解决前景和背景之间的不一致性,得到高质量合成图。

串行流程和并行流程如下图所示,绿勾和红叉表示是否执行该子任务。
六年、六届学生接力,共铸上交大图像合成工具箱libcom
给定一对背景图片和前景物体,串行流程是先在背景中寻找前景物体的合理放置,通过图像混合解决边界不自然的问题,通过图像和谐化解决前背景光照不和谐的问题,通过阴影生成为前景物体在背景上生成合理的阴影。

而并行流程则是在一个模型中同时执行多个子任务,直接输出最终的合成图。并行流程也叫做生成式图像合成,近两年随着扩散模型的爆火而进入大众的视野。

libcom 的功能中有的基于串行流程,有的基于并行流程。

图像合成人才留步,团队在召唤

经过多年迭代发展的 libcom 功能虽多,但也有不少地方有待改进和补充。牛力老师表示,目前有待改进地方包括数据集扩充、模型调优、添加新功能、支持任意分辨率、工程优化、推理加速、跨平台迁移、版本升级迭代、用户界面等。

为了进一步推进这个项目的发展,牛力团队在此发出了诚挚邀请:「诚邀对图像合成感兴趣的大佬们指导工作,共铸 libcom,提供资金、数据、人力、技术等方面的支持。」贡献特别突出的人甚至可以获得 libcom 项目的冠名权,比如 JackLibcom、PonyLibcom。如有合作意向,请发送邮件到 ustcnewly@sjtu.edu.cn

今天关于《六年、六届学生接力,共铸上交大图像合成工具箱libcom》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Neomjs:高性能开源 JavaScript 框架Neomjs:高性能开源 JavaScript 框架
上一篇
Neomjs:高性能开源 JavaScript 框架
力帆科技9月销量为4636辆,同比增长22.29%
下一篇
力帆科技9月销量为4636辆,同比增长22.29%
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    7次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    7次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    6次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    13次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    14次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码