当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

来源:机器之心 2024-06-20 16:42:49 0浏览 收藏

最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。

今年共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,另外还有2篇最佳论文提名和4篇最佳学生论文提名。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

计算机视觉(CV)领域的顶级会议是CVPR,每年都会吸引大量研究机构和高校参会。据统计,今年共提交了11532份论文,2719篇被接收,录用率为23.6%。

根据佐治亚理工学院对CVPR 2024的数据统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,共329篇。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

今年的参会总人数高于往年,且越来越多的人选择了线下参会。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

最佳论文

  • 论文 1:Generative Image Dynamics

  • 作者:Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski

  • 机构:谷歌研究院

  • 论文地址:https://arxiv.org/pdf/2309.07906

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

Zhengqi Li(李正奇)是 Google DeepMind 的一名研究科学家。此前,他在康奈尔大学获得了计算机科学博士学位,师从 Noah Snavely 教授。他的研究成果曾多次获奖,包括 2020 年 Google 博士奖学金、2020 年 Adobe 研究奖学金、CVPR 2019 和 CVPR 2023 最佳论文荣誉奖、ICCV 2023 最佳学生论文奖。

摘要:该研究提出了一种对场景运动建模图像 - 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的运动轨迹,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该研究建模傅立叶域中密集的长期运动作为频谱体积(spectral volume),研究团队发现这非常适合用扩散模型预测。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

给定单个图像,该研究训练的模型使用频率协调扩散采样过程来预测频谱体积,还可以转换为跨越整个视频的运动纹理(motion texture)。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

                             该研究可以通过调整运动纹理的幅度来缩小(顶部)或放大(底部)动画运动。

与基于图像的渲染模块一起,预测的运动表征可用于许多下游应用,例如将静止图像变成无缝循环视频,或者允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 论文 2:Rich Human Feedback for Text-to-Image Generation

  • 作者:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等

  • 机构:加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学

  • 论文地址:https://arxiv.org/pdf/2312.10240

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

从论文作者一栏我们可以看到,这项研究有多位华人参与,其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生,在此之前,他是华南农业大学信息与计算机科学专业的本科生;Junfeng He 来自谷歌,此前他硕士毕业于清华大学。

摘要:最近,文本到图像(T2I)生成模型取得重大进展,能够根据文本描述生成高分辨率图像。然而,许多生成的图像仍然存在伪影 / 不可信、与事实不符、美观度低等问题。

受人类反馈强化学习(RLHF)成功用于大型语言模型的启发,该研究通过以下方式来丰富反馈信号:

  • 用文本标记不可信或不对齐的图像区域;

  • 对文本 prompt 中的单词在图像上被歪曲或缺失的情况,进行注释。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

该研究创建了 18K 生成图像数据集 RichHF-18K,并在 RichHF-18K 上收集了丰富的人类反馈,并训练多模态 transformer 来自动预测反馈。该研究证明预测的人类反馈可用于改进图像生成,例如通过选择高质量的训练数据微调和改进生成模型,或者通过创建掩码来修复有问题的图像区域。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

最佳论文亚军

  • 论文 1:EventPS: Real-Time Photometric Stereo Using an Event Camera

  • 作者:Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi

  • 机构:北京大学、上海交通大学等

  • 论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 论文 2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

  • 作者:David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann

  • 机构:MIT、西蒙菲莎大学、多伦多大学

  • 论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

最佳学生论文

  • 论文 1:BioCLIP: A Vision Foundation Model for the Tree of Life

  • 作者:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su

  • 机构:俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院

  • 论文地址:https://arxiv.org/pdf/2311.18803

摘要:从无人机到个人手机,各种相机收集的自然世界图像日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长,特别是计算机视觉,用于从科学和保护图像中提取生物学相关信息。然而,其中大多数都是为特定任务设计的定制方法,不容易适应或扩展到新的问题、上下文和数据集。研究者急需一个用于图像上一般生物体生物学问题的视觉模型。

为了实现这一目标,该研究策划并发布了 TREEOFLIFE-10M,这是规模最大、最多样化的生物图像数据集 ML-ready。基于此,研究者开发了基础模型 BIOCLIP,主要用于构建生命之树(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物学独特属性,即植物、动物和真菌图像的丰富性和多样性,以及丰富的结构化生物学知识。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

                         TREEOFLIFE-10M 中 108 个门的树状图。

研究者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试,发现 BIOCLIP 的表现始终显著优于现有基线(绝对值高出 16% 到 17%)。

内在评估表明,BIOCLIP 已经学会了符合生命之树的分层表示,这揭示了其强大的通用性。

  • 论文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting

  • 论文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

  • 机构:图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学

  • 论文地址:https://arxiv.org/abs/2311.16493

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

摘要:最近,3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果,达到了高保真度和效率水平。然而,当改变采样率时(例如通过改变焦距或摄像机距离),强烈的伪影现象可能会出现。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

3D 高斯泼溅通过将 3D 对象表示为被投影到图像平面上的 3D 高斯函数,随后在屏幕空间中进行 2D 膨胀处理,如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制,如图 (b) 中的 δ 函数所示,而由于膨胀操作,其渲染效果类似于 2D。然而,当改变采样率(通过焦距或相机距离)时,会观察到强烈的膨胀效应(c)和高频伪影(d)。

该研究团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题,他们引入了一种 3D smoothing filter,该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小,从而在放大时消除高频伪影。

此外,作者团队用 2D Mip filter 替换 2D dilation filter,这种滤波器模拟了 2D box filter,有效地缓解了走样和膨胀问题。研究者根据评估,包括在单尺度图像上训练和多尺度测试等场景,验证了这种方法的有效性。

最佳学生论文亚军

  • 论文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

  • 作者:Paul Roetzer 、Florian Bernard

  • 机构:波恩大学

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 论文:Image Processing GNN: Breaking Rigidity in Super-Resolution

  • 作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

  • 机构:北京大学、华为诺亚方舟实验室

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 论文:Objects as volumes: A stochastic geometry view of opaque solids

  • 作者:Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas

  • 机构:卡耐基梅隆大学

  • 链接:https://arxiv.org/pdf/2312.15406v2

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 论文:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

  • 作者:Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin

  • 机构:俄勒冈州立大学

  • 链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

其他奖项

大会还公布了 PAMI TC 奖,包括 Longuet-Higgins 奖、青年研究者奖、Thomas S. Huang 纪念奖三项。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年获奖的论文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

  • 作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik

  • 机构:UC 伯克利

  • 论文链接:https://arxiv.org/abs/1311.2524

青年研究者奖

青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。

今年获奖者为 Angjoo Kanazawa(UC 伯克利)和 Carl Vondrick(哥伦比亚大学)。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

另外,Katie Bouman(加州理工学院)获得了青年研究者奖荣誉提名。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

Thomas Huang 纪念奖

在 CVPR 2020 上,为了纪念 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。

今年的获奖者是牛津大学教授 Andrea Vedaldi。

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

更多信息可参考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf

参考链接:

https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2

到这里,我们也就讲完了《CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于入门的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
三星Galaxy Z Fold6尺寸基本不变,保护套厂商曝光新机细节三星Galaxy Z Fold6尺寸基本不变,保护套厂商曝光新机细节
上一篇
三星Galaxy Z Fold6尺寸基本不变,保护套厂商曝光新机细节
国内首个!成都城市低空载人验证飞行航线首飞成功,市区直飞青城山、双机场连通
下一篇
国内首个!成都城市低空载人验证飞行航线首飞成功,市区直飞青城山、双机场连通
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    27次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    29次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    29次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    36次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    30次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码