当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 清华新技术实现精准视频片段定位，取得SOTA成果并已开源

清华新技术实现精准视频片段定位，取得SOTA成果并已开源

来源：51CTO.COM 2024-01-15 10:32:41 0浏览收藏

golang学习网今天将给大家带来《清华新技术实现精准视频片段定位，取得SOTA成果并已开源》，感兴趣的朋友请继续看下去吧！以下内容将会涉及到等等知识点，如果你是正在学习科技周边或者已经是大佬级别了，都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家！

只需一句话描述，就能在一大段视频中定位到对应片段！

比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一下子就能揪出对应起止时间戳：

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

就连“大笑”这种语义难理解型的，也能准确定位：

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

方法名为自适应双分支促进网络（ADPN），由清华大学研究团队提出。

具体来说，ADPN是用来完成一个叫做视频片段定位（Temporal Sentence Grounding，TSG）的视觉-语言跨模态任务，也就是根据查询文本从视频中定位到相关片段。

ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。

相较其他利用音频的TSG工作PMI-LOC、UMT，ADPN方法从音频模态获取了更显著地性能提升，多项测试拿下新SOTA。

目前该工作已经被ACM Multimedia 2023接收，且已完全开源。

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

一起来看看ADPN究竟是个啥～

一句话定位视频片段

视频片段定位（Temporal Sentence Grounding，TSG）是一项重要的视觉-语言跨模态任务。

它的目的是根据自然语言查询，在一个未剪辑的视频中找到与之语义匹配的片段的起止时间戳，它要求方法具备较强的时序跨模态推理能力。

然而，大多数现有的TSG方法只考虑了视频中的视觉信息，如RGB、光流（optical flows）、深度（depth）等，而忽略了视频中天然伴随的音频信息。

音频信息往往包含丰富的语义，并且与视觉信息存在一致性和互补性，如下图所示，这些性质会有助于TSG任务。

△图1

(a)一致性：视频画面和脚步声一致地匹配了查询中的“走下楼梯”的语义；(b)互补性：视频画面难以识别出特定行为来定位查询中的“笑”的语义，但是笑声的出现提供了强有力的互补定位线索。

因此研究人员深入研究了音频增强的视频片段定位任务（Audio-enhanced Temporal Sentence Grounding，ATSG），旨在更优地从视觉与音频两种模态中捕获定位线索，然而音频模态的引入也带来了如下挑战：

音频和视觉模态的一致性和互补性是与查询文本相关联的，因此捕获视听一致性与互补性需要建模文本-视觉-音频三模态的交互。
音频和视觉间存在显著的模态差异，两者的信息密度和噪声强度不同，这会影响视听学习的性能。

为了解决上述挑战，研究人员提出了一种新颖的ATSG方法“自适应双分支促进网络”（Adaptive Dual-branch Prompted Network，ADPN）。

通过一种双分支的模型结构设计，该方法能够自适应地建模音频和视觉之间的一致性和互补性，并利用一种基于课程学习的去噪优化策略进一步消除音频模态噪声的干扰，揭示了音频信号对于视频检索的重要性。

ADPN的总体结构如下图所示：

△图2：自适应双分支促进网络（ADPN）总体示意图

它主要包含三个设计：

1、双分支网络结构设计

考虑到音频的噪声更加明显，且对于TSG任务而言，音频通常存在更多冗余信息，因此音频和视觉模态的学习过程需要赋予不同的重要性，因此本文涉及了一个双分支的网络结构，在利用音频和视觉进行多模态学习的同时，对视觉信息进行强化。

具体地，参见图2(a)，ADPN同时训练一个只使用视觉信息的分支（视觉分支）和一个同时使用视觉信息和音频信息的分支（联合分支）。

两个分支拥有相似的结构，其中联合分支增加了一个文本引导的线索挖掘单元（TGCM）建模文本-视觉-音频模态交互。训练过程两个分支同时更新参数，推理阶段使用联合分支的结果作为模型预测结果。

2、文本引导的线索挖掘单元（Text-Guided Clues Miner，TGCM）

考虑到音频与视觉模态的一致性与互补性是以给定的文本查询作为条件的，因此研究人员设计了TGCM单元建模文本-视觉-音频三模态间的交互。

参考图2(b)，TGCM分为”提取“和”传播“两个步骤。

首先以文本作为查询条件，从视觉和音频两种模态中提取关联的信息并集成；然后再以视觉与音频各自模态作为查询条件，将集成的信息通过注意力传播到视觉与音频各自的模态，最终再通过FFN进行特征融合。

3、课程学习优化策略

研究人员观察到音频中含有噪声，这会影响多模态学习的效果，于是他们将噪声的强度作为样本难度的参考，引入课程学习（Curriculum Learning，CL）对优化过程进行去噪，参考图2(c)。

他们根据两个分支的预测输出差异来评估样本的难度，认为过于难的样本大概率表示其音频含有过多的噪声而不适于TSG任务，于是根据样本难度的评估分数对训练过程的损失函数项进行重加权，旨在丢弃音频的噪声引起的不良梯度。

（其余的模型结构与训练细节请参考原文。）

多项测试新SOTA

研究人员在TSG任务的benchmark数据集Charades-STA和ActivityNet Captions上进行实验评估，与baseline方法的比较如表1所示。

ADPN方法能够取得SOTA性能；特别地，相较其他利用音频的TSG工作PMI-LOC、UMT，ADPN方法从音频模态获取了更显著地性能提升，说明了ADPN方法利用音频模态促进TSG的优越性。

△表1：Charades-STA与ActivityNet Captions上实验结果

研究人员进一步通过消融实验展示了ADPN中不同的设计单元的有效性，如表2所示。

△表2：Charades-STA上消融实验

研究人员选取了一些样本的预测结果进行了可视化，并且绘制了TGCM中”提取“步骤中的”文本 to 视觉“（T→V）和”文本 to 音频“（T→A）注意力权重分布，如图3所示。

可以观察到音频模态的引入改善了预测结果。从“Person laughs at it”的案例中，可以看到T→A的注意力权重分布更接近Ground Truth，纠正了T→V的权重分布对模型预测的错误引导。

△图3：案例展示

总的来说，本文研究人员提出了一种新颖的自适应双分支促进网络（ADPN）来解决音频增强的视频片段定位（ATSG）问题。

他们设计了一个双分支的模型结构，联合训练视觉分支和视听联合分支，以解决音频和视觉模态之间的信息差异。

他们还提出了一种文本引导的线索挖掘单元（TGCM），用文本语义作为指导来建模文本-音频-视觉交互。

最后，研究人员设计了一种基于课程学习的优化策略来进一步消除音频噪音，以自感知的方式评估样本难度作为噪音强度的度量，并自适应地调整优化过程。

他们首先在ATSG中深入研究了音频的特性，更好地提升了音频模态对性能的提升作用。

未来，他们希望为ATSG构建更合适的评估基准，以鼓励在这一领域进行更深入的研究。

论文链接：https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
仓库链接：https://github.com/hlchen23/ADPN-MM

本篇关于《清华新技术实现精准视频片段定位，取得SOTA成果并已开源》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！

AI 视频

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

解决win10开机时丢失ntldr文件的问题方法

解决win10开机时丢失ntldr文件的问题方法

上一篇: 解决win10开机时丢失ntldr文件的问题方法

详细讲解如何在Tomcat中部署WAR包

下一篇: 详细讲解如何在Tomcat中部署WAR包

查看更多

最新文章

科技周边 · 人工智能 | 2天前 | 人工智能 · rag · AI应用 · 知识库 · 向量检索 · 故障复盘 · 人工智能检索增强生成 RAG 向量检索证据门禁评测样本 AI应用复盘

RAG 应用答错怎么复盘：检索命中、证据门禁和评测样本怎么补

468浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · ai agent · AI应用 · 工具调用 · 权限边界 · 审计链路 · 人工智能权限控制 AI Agent 工具调用审批链路审计回放上线指标

AI Agent 工具调用怎么落地：权限闸门、审批链路和上线观察指标

343浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 1星期前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 3星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

4420次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

4078次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

4059次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

4245次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

4220次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码