ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖
一分耕耘,一分收获!既然打开了这篇文章《ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!
本周,国际计算机视觉大会 ICCV(International Conference on Computer Vision)在法国巴黎开幕。
作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。
和 CVPR 一样,ICCV 的热度屡创新高。
在今天的开幕式上,ICCV 官方公布了今年的论文数据:本届 ICCV 投稿总数达到 8068 篇,其中有 2160 篇被接收,录用率为 26.8%,略高于上一届 ICCV 2021 的录用率 25.9%
关于论文主题,官方也发布了相关数据:多视角和传感器的3D技术热度最高
在今天的开幕式上,最重要的部分是宣布获奖信息。现在,让我们逐一揭晓最佳论文、最佳论文提名和最佳学生论文
最佳论文 - 马尔奖
共有两篇论文获得今年的最佳论文(马尔奖)。
第一篇来自多伦多大学的研究者。
- 论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
- 作者:Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
- 机构:多伦多大学
摘要:本文考虑在极端的时间尺度范围内,同时(秒到皮秒)对动态场景进行成像的问题,并且是被动地进行成像,没有太多的光,也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计(flux estimation)技术在这种情况下会失效,因此本文开发了一种通量探测理论,该理论从随机微积分中汲取见解,从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。
本文利用这一理论来表明,无源自由运行SPAD相机在低通量条件下具有可实现的频率带宽,可以跨越整个DC到31 GHz的范围。同时,本文还推导出了一种新颖的傅里叶域通量重建算法,并确保该算法的噪声模型在非常低的光子计数或不可忽略的死区时间下仍然有效
通过实验展示了这种异步成像机制的潜力:(1)对于由以不同速度运行的光源(如灯泡、投影仪、多个脉冲激光器)同时照明的场景进行成像,无需同步;(2)实现被动非视距视频采集;(3)记录超宽带视频,稍后以30 Hz的速度播放以展示日常运动,也可以以慢十亿倍的速度播放以展示光本身的传播
第二篇就是我们所熟知的 ControNet。
- 论文地址:https://arxiv.org/pdf/2302.05543.pdf
- 作者:Lvmin Zhang、Anyi Rao、Maneesh Agrawala
- 机构:斯坦福大学
摘要:本研究提出了一种名为ControlNet的端到端神经网络架构。该架构通过添加额外的条件来控制扩散模型(如稳定扩散),以改善图像生成效果。同时,ControlNet能够实现线稿生成全彩图、生成具有相同深度结构的图像,并通过手部关键点优化手部生成效果等
ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。
这里的额外条件以图像的形式来输入,模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等,然后在生成的图像中保留这些信息。利用这一模型,我们可以直接把线稿或涂鸦转换成全彩图,生成具有同样深度结构的图等等,通过手部关键点还能优化人物手部的生成。
请参阅机器之心的报道《AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用》以获取更详细的介绍
最佳论文提名:SAM
今年四月,Meta发布了名为「分割一切(SAM)」的人工智能模型,该模型能够为任何图像或视频中的物体生成掩码,这让计算机视觉领域的研究者们感到非常震惊,有人甚至说「计算机视觉不复存在了」
如今,这篇备受关注的论文摘的最佳论文提名。
- 论文地址:https://arxiv.org/abs/2304.02643
- 机构:Meta AI
重写后的内容:在解决分割问题之前,通常有两种方法。第一种是交互式分割,这种方法可以用来分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割,可以用来分割预先定义的特定对象类别(例如猫或椅子),但需要大量手动注释对象来进行训练(例如数千甚至数万个分割猫的例子)。然而,这两种方法都没有提供通用的、全自动的分割方法
Meta 提出的 SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、框选、文本等),就可以完成范围广泛的分割任务
总结一下,这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的
详细介绍请参考机器之心报道:《CV 不存在了?Meta 发布「分割一切」AI 模型,CV 或迎来 GPT-3 时刻》
最佳学生论文
该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成,一作是来自 Cornell Tech 的博士生 Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。
- 论文地址:https://arxiv.org/abs/2306.05422
- 项目主页:https://omnimotion.github.io/
摘要:在计算机视觉领域,常用的运动估计方法有两种:稀疏特征追踪和密集光流。但这两种方法各有缺点,稀疏特征追踪不能建模所有像素的运动;密集光流无法长时间捕获运动轨迹。
该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频,并通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。
请参考机器之心报道《随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了》以获取更详细的介绍
今年 ICCV 除了这些获奖论文外,还有许多其他优秀论文值得大家关注。以下是17篇获奖论文的初始清单
理论要掌握,实操不能落!以上关于《ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- 马斯克发布人形机器人进展,它是否“中看不中用”?

- 下一篇
- 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星
-
- 科技周边 · 人工智能 | 22分钟前 |
- 用豆包A/生成的表情包如何赚钱
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 理想L系列智能焕新版5月8日发布L7/8/9齐上新
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek+Triop:AI手绘到3D建模全程解析
- 136浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 奔驰纯电新车曝光:仅800V快充或慢充
- 319浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 全新日产帕拉丁黑武士版上市,17.28万起
- 396浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 1-2月乘用车摄像头装机量破1300万增14.6%
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 谷歌升级Gemini2.5Pro,强化多模态AI
- 263浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 即梦ai添加时间戳教程即梦ai日期水印设置攻略
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 免费AI证件照生成网站全方位测评
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 4月车市火爆:以旧换新激增,品牌销量创新高
- 182浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 12次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 27次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 27次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 35次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览