谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
积累知识,胜过积蓄金银!毕竟在开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
最近,来自谷歌的研究员提出了一种用于描述多事件视频的预训练视觉语言模型——Vid2Seq,目前已被CVPR23接收。
在以前,理解视频内容是一项具有挑战性的任务,因为视频通常包含在不同时间尺度发生的多个事件。
比如,一个雪橇手将狗拴在雪橇上、然后狗开始跑的视频涉及一个长事件(狗拉雪橇)和一个短事件(狗被拴在雪橇上)。
而促进视频理解研究的一种方法是,通过密集视频标注任务,该任务包括在一分钟长的视频中对所有事件进行时间定位和描述。
论文地址:https://arxiv.org/abs/2302.14115
Vid2Seq架构用特殊的时间标记增强了语言模型,使其能够在同一输出序列中无缝预测事件边界和文本描述。
为了对这个统一的模型进行预训练,研究者通过将转录的语音的句子边界重新表述为伪事件边界,并将转录的语音句子作为伪事件的标注,来利用未标记的旁白视频。
Vid2Seq模型概述
由此产生的Vid2Seq模型在数以百万计的旁白视频上进行了预训练,提高了各种密集视频标注基准的技术水平,包括YouCook2、ViTT和ActivityNet Captions。
Vid2Seq还能很好地适用于few-shot的密集视频标注设置、视频段落标注任务和标准视频标注任务。
用于密集视频标注的视觉语言模型
多模态Transformer架构已经刷新了各种视频任务的SOTA,比如动作识别。然而,要使这样的架构适应在长达几分钟的视频中联合定位和标注事件的复杂任务,并不简单。
为了实现这一目标,研究者用特殊的时间标记(如文本标记)来增强视觉语言模型,这些时间标记代表视频中离散的时间戳,类似于空间领域的Pix2Seq。
对于给定的视觉输入,所产生的Vid2Seq模型既可以接受输入,也可以生成文本和时间标记的序列。
首先,这使Vid2Seq模型能够理解转录的语音输入的时间信息,它被投射为单一的标记序列。其次,这使Vid2Seq能够联合预测密集的事件标注,并在视频中以时间为基础,同时生成单一的标记序列。
Vid2Seq架构包括一个视觉编码器和一个文本编码器,它们分别对视频帧和转录的语音输入进行编码。产生的编码随后被转发到文本解码器,该解码器自动预测密集事件标注的输出序列,以及它们在视频中的时间定位。该架构初始化时有一个强大的视觉主干和一个强大的语言模型。
对视频进行大规模预训练
由于任务的密集性,为密集的视频标注手动收集注释的成本特别高。
因此,研究者使用了无标签的解说视频对Vid2Seq模型进行预训练,这些视频在规模上很容易获得。他们还使用了YT-Temporal-1B数据集,其中包括1800万个涵盖广泛领域的旁白视频。
研究者使用转录的语音句子及其相应的时间戳作为监督,这些句子被投射为单一的token序列。
然后用一个生成目标对Vid2Seq进行预训练,该目标教导解码器仅仅预测给定视觉输入的转录的语音序列,以及一个鼓励多模态学习的去噪目标,要求模型在有噪声的转录语音序列和视觉输入的情况下预测掩码。特别是,通过随机掩盖跨度的token,把噪声添加到语音序列中。
下游任务的基准测室结果
由此产生的预训练的Vid2Seq模型可以通过一个简单的最大似然目标在下游任务中进行微调,该目标使用教师强迫(即在给定先前的基础真实token的情况下预测下一个token)。
经过微调,Vid2Seq在三个标准的下游密集视频标注基准(ActivityNet Captions、YouCook2和ViTT)和两个视频剪辑标注基准(MSR-VTT、MSVD)上超越了SOTA。
在论文中,还有额外的消融研究、定性结果,以及在few-shot设置和视频段落标注任务中的结果。
定性测试
结果表明,Vid2Seq可以预测有意义的事件边界和标注,而且预测的标注和边界与转录的语音输入有很大的不同(这也表明输入中视觉标记的重要性)。
下一个例子有关于烹饪食谱中的一系列指令,是Vid2Seq对YouCook2验证集的密集事件标注预测的例子:
接下来是Vid2Seq对ActivityNet Captions验证集的密集事件标注预测的例子,在所有这些视频中,都没有转录的语音。
不过还是会有失败的案例,比如下面标红的这个画面,Vid2Seq说是一个人对着镜头脱帽致敬。
对标SOTA
表5将Vid2Seq与最先进的密集视频标注方法进行了比较:Vid2Seq在YouCook2、ViTT 和ActivityNet Captions这三个数据集上刷新了SOTA。
Vid2Seq在YouCook2和ActivityNet Captions上的SODA指标比PDVC和UEDVC分别提高了3.5和0.3分。且E2ESG在Wikihow上使用域内纯文本预训练,而Vid2Seq优于这一方法。这些结果表明,预训练的Vid2Seq模型具有很强的密集事件标注能力。
表6评估了密集视频标注模型的事件定位性能。与YouCook2和ViTT相比,Vid2Seq在处理密集视频标注作为单一序列生成任务时更胜一筹。
然而,与PDVC和UEDVC相比,Vid2Seq在ActivityNet Captions上表现不佳。与这两种方法相比,Vid2Seq整合了较少的关于时间定位的先验知识,而另两种方法包括特定的任务组件,如事件计数器或单独为定位子任务训练一个模型。
实现细节
- 架构
视觉时间transformer编码器、文本编码器和文本解码器都有12层,12个头,嵌入维度768,MLP隐藏维度2048。
文本编码器和解码器的序列在预训练时被截断或填充为L=S=1000个token,在微调期间,S=1000和L=256个token。在推理过程中,使用波束搜索解码,跟踪前4个序列并应用0.6的长度归一化。
- 训练
作者使用Adam优化器,β=(0.9, 0.999),没有权重衰减。
在预训练期间,使用1e^-4的学习率,在前1000次迭代中线性预热(从0开始),并在其余迭代中保持不变。
在微调期间,使用3e^-4的学习率,在前10%的迭代中线性预热(从0开始),其余90%的迭代中保持余弦衰减(降至0)。过程中,使用32个视频的批处理量,并在16个TPU v4芯片上分割。
作者对YouCook2进行了40次epoch调整,对ActivityNet Captions和ViTT进行了20次epoch调整,对MSR-VTT进行了5次epoch调整,对MSVD进行了10次epoch调整。
结论
谷歌提出的Vid2Seq,是一种用于密集视频标注的新型视觉语言模型,它可以有效地在无标签的旁白视频上进行大规模的预训练,并在各种下游密集视频标注的基准上取得了SOTA的结果。
作者介绍
论文一作:Antoine Yang
Antoine Yang是法国国立计算机及自动化研究院Inria和巴黎高等师范学校École Normale Supérieure的WILLOW团队的三年级博士生,导师为Antoine Miech, Josef Sivic, Ivan Laptev和Cordelia Schmid。
目前的研究重点是学习用于视频理解的视觉语言模型。他于2019年在华为诺亚方舟实验室实习,在2020年获得了巴黎综合理工学院的工程学位和巴黎萨克雷国立大学的数学、视觉和学习硕士学位,2022年在谷歌研究院实习。
到这里,我们也就讲完了《谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于模型,语言的知识点!

- 上一篇
- Windows 11 现在让设置默认浏览器变得更加容易

- 下一篇
- 向微软宣战,谷歌宣布在 Gmail、Docs 等应用中加入生成式 AI 功能
-
- 科技周边 · 人工智能 | 29分钟前 |
- Ollama本地模型管理与加载教程
- 397浏览 收藏
-
- 科技周边 · 人工智能 | 49分钟前 |
- 豆包AI隐藏模板引热议,三天爆火相亲图遭吐槽
- 418浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 豆包AI优化Log4j的5个实用技巧
- 348浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Deepseek满血版搭配Loom,轻松制作视频讲解
- 205浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- PerplexityAI插件开发入门教程详解
- 110浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- Deepseek满血版搭配Writesonic高效写大纲
- 317浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 沃尔沃八座移动客厅揭秘
- 266浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- Gemini能解析暗物质吗
- 475浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- Claude隐私设置与数据保护全解析
- 128浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 多模态AI解析植物表型数据应用
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- Moonshot剧本实测:分镜对白表现如何?
- 488浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 184次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 182次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 184次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 192次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 204次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览