ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项
在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!
在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕
作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。
ICCV的热度一直以来都与CVPR不相上下,屡创新高
在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV 2021的录用率25.9%

在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高

在今天的开幕式上,最重要的部分无疑是颁发奖项的环节。接下来,我们将逐一揭晓最佳论文、最佳论文提名和最佳学生论文的获奖者
最佳论文-马尔奖
今年的最佳论文(马尔奖)有两篇论文获得该奖项
第一篇研究是由多伦多大学的研究者进行的

作者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
重写后的内容:多伦多大学是一所知名的机构
摘要:本文考虑在极端的时间尺度范围内,同时(秒到皮秒)对动态场景进行成像的问题,并且是被动地进行成像,没有太多的光,也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计(flux estimation)技术在这种情况下会失效,因此本文开发了一种通量探测理论,该理论从随机微积分中汲取见解,从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。
本文利用这一理论来 (1) 表明无源自由运行 SPAD 相机在低通量条件下具有可实现的频率带宽,跨越整个 DC-to31 GHz 范围,(2) 推导出了一种新颖的傅里叶域通量重建算法,并且 (3) 确保算法的噪声模型即使对于非常低的光子计数或不可忽略的死区时间也保持有效。
ControlNet、SAM等热门论文获奖,ICCV 2023论文奖项公布。本文通过实验展示了这种异步成像机制的潜力:(1)对由以截然不同的速度运行的光源(灯泡、投影仪、多个脉冲激光器)同时照明的场景进行成像,而无需同步,(2)被动非视距视频采集;(3)记录超宽带视频,稍后可以以30 Hz的速度播放以显示日常运动,但也可以慢十亿倍的速度播放以显示光本身的传播

需要被重写的内容是:第二篇就是我们所熟知的ControNet

论文地址:https://arxiv.org/pdf/2302.05543.pdf
撰写者:张绿民、饶安怡、Maneesh Agrawala
机构:斯坦福大学
摘要:本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。
ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。
重新写成: 我们可以通过将额外的条件以图像的形式输入,让模型进行Canny边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等操作,并在生成的图像中保留这些信息。利用这个模型,我们可以将线稿或涂鸦直接转换成全彩图,并生成具有相同深度结构的图像,同时还可以通过手部关键点来优化人物手部的生成

详细介绍请参考本站报道:AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
最佳论文提名:SAM
今年4月份,Meta发布了名为「分割一切(SAM)」的AI模型,它能够为任何图像或视频中的物体生成遮罩。这一技术让计算机视觉领域的研究者们感到震惊,有人甚至称之为「CV不存在了」
如今,这篇备受关注的论文摘的最佳论文提名。

论文地址:https://arxiv.org/abs/2304.02643
重写后的内容:机构:Meta AI
重写后的内容:对于分割问题的解决,目前大致有两种方法。第一种是交互式分割,这种方法可以用来分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割,可以用来分割预定义的特定对象类别(例如猫或椅子),但需要大量手动注释对象进行训练(例如数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法
Meta提出的SAM很好地总结了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、框选、文本等),就可以完成各种广泛的分割任务
总结一下,这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的
详细介绍请参考本站报道:CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
最佳学生论文
该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成,一作是来自Cornell Tech 的博士生Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。

在计算机视觉领域,有两种常用的运动估计方法:稀疏特征追踪和密集光流。然而,这两种方法都存在一些缺点。稀疏特征追踪不能对所有像素的运动进行建模,而密集光流则无法长时间捕捉运动轨迹
OmniMotion 是一项研究提出的新技术,它使用了 quasi-3D 规范体积来表征视频。通过局部空间和规范空间之间的双射,OmniMotion 能够对每个像素进行追踪。这种表征方法不仅能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,而且能够对相机和物体运动的任何组合进行建模。实验证明,OmniMotion 方法在性能上显著优于现有的 SOTA 方法

详细介绍请参考本站报道:随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
当然,除了这些获奖论文,今年ICCV还有许多优秀论文值得大家关注。最后为大家附上17篇获奖论文初始清单。

以上就是《ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项》的详细内容,更多关于产业,ICCV的资料请关注golang学习网公众号!

- 上一篇
- ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

- 下一篇
- 如何使用PHP-FPM优化提高PrestaShop应用的性能
-
- 科技周边 · 人工智能 | 7分钟前 |
- 多模态AI图像识别教程与使用技巧
- 161浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- MidjourneyV6新功能:StyleRaw与Stylize使用教程
- 178浏览 收藏
-
- 科技周边 · 人工智能 | 49分钟前 |
- DeepSeek写文案技巧与实战案例分享
- 245浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 极星Polestar3刷新电动SUV续航纪录
- 239浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI字幕工具搭配豆包,轻松添加字幕方法
- 341浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 小白AI剪辑入门,一周速成全攻略
- 235浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 黑客松 AdventureX 陆新宇 指引者 评审
- 陆新宇将成AdventureX指引者引关注
- 149浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 228次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 227次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 225次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 231次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 250次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览