当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

来源:机器之心 2024-06-11 08:15:10 0浏览 收藏

目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文通讯作者为佐治亚理工学院计算机系博士生 Wenqi Jia(秋季起将转入伊利诺伊香槟分校),导师为 James M. Rehg 及 Danfei Xu。她的主要研究方向聚焦于第一人称视角下的人类行为分析及意图理解,曾参与 Ego4D 项目,并在 CVPR,ECCV,ACL 等顶级会议上发表多篇论文。个人主页:https://vjwq.github.io/

近年来兴起的第一人称视角视频研究为理解人类社交行为提供了无法取代的直观视角,然而,绝大多数的既往工作都侧重于分析与摄像机佩戴者相关的行为,并未关注处于社交场景中其他社交对象的状态。此外,多数现有模型能理解一种社交行为信号,而人类的实际社交行为是多样且密集的:在一个嘈杂的面对面多人对话场景中,我们总是在主动判断自己究竟在和谁说话,谁又在试图听我说话,也完全有能力推测这一群组中其他人之间的对话状态。不难想象,如果有一个算法可以帮助快速准确地做出对当前社交状态的判断,将会极大助力我们日常沟通的质量和效率。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

  • 论文地址:https://arxiv.org/abs/2312.12870 
  • 项目主页:https://vjwq.github.io/AV-CONV/ 

在今年 CVPR 上,来自佐治亚理工学院、Meta 和伊利诺伊香槟分校的研究者们提出了新问题:一个同时应用第一人称视角音 - 视频信号的多模态框架是否可以像人类一样识别讨论组里同时存在的、错综复杂的对话状态

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                                   第一 (Ego) --- 第三 (Exo) 人称对话行为

Ego-Exo 对话图

对此,他们引入了一个有向的第一 (Ego) --- 第三 (Exo) 人称对话图的概念来进行社交行为建模。与视觉关系场景图识别任务概念类似,这一任务旨在识别目标对之间的对话行为关系。具体来说,多人对话场景中包括相机佩戴者在内的每一个人都被表示为一个节点(node),当给定任意两个节点 AB 时,对话图利用连接他们的有向社交关系边(directional edge)表示这个社交对之间存在怎样的倾听和讲话属性(A 是否在对 B 说话 / 倾听,反之同理)。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                                 第一 (Ego) --- 第三 (Exo) 人称对话图     两个社交对的有向社交关系边属性

多模态对话注意力方法

人类在进行多人对话的社交活动时自然地利用着音视频信号的协同:我们需要视觉输入帮助识别社交对象的位置和外观,同时需要音频信号帮助确认哪些社交对象在发言。受此启发,该研究提出了一个统一的端到端多模态框架 --- 音视频对话注意力(AV-CONV),通过采用自注意力机制来建模跨时间、跨主体和全局 - 局部跨模态的表示来帮助解决这一对话图识别任务。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                                  音视频对话注意力(AV-CONV)模型结构

这一框架包含了两个主要组件:1)社交对象多模态特征的生成;2)利用对话注意力模块(Conversational Attention)对多模态特征的增强,特征对的组装及输出预测。

对于每个时长为 3 秒钟的视频输入,AV-CONV 接收 6 个均匀采样的第一人称视频帧和相应的多通道音频信号。在每一帧上,人脸检测算法帮助裁剪出所有可见的社交对象面部作为视觉信号。同时,这些人脸在视频帧上的相对位置以二值掩膜(binary mask)的形式与音频信号串连,生成具有位置敏感性的听觉输入。这些视觉和音频信号由两个独立的 ResNet18 网络编码,然后连接起来形成多模态音视频特征。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                               对话注意力模块(Conversational Attention)细节

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                                  社交对象特征对组装及预测头

接下来,由三个双层自注意力子模块组成的对话注意力模块会从时间维度、不同社交对象维度和不同模态维度对这些多模态特征进行增强,这些特征会被直接输入一组分类器,以得到对包含相机佩戴者在内的社交对的关系预测结果。

此外,任意两个社交对象特征被组合成第三人称视角下的社交特征对。它们被输入另一组分类器,以得到对不包含相机佩戴者在内的其它社交对的关系预测结果。

对比及消融实验

这一方法在第一人称并发对话数据集 (Egocentric Concurrent Conversations Dataset) 上进行实验以验证其有效性。在这个数据集中,每个数据采集场景由被分为两组同时分别进行对话的 5 个人组成。该数据集收集了来自 50 名不同参与者的第一人称视频,总时长约为 20 小时。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

                                    基准比较实验结果

对比实验采用了两个相关工作的扩展变体(SAAL, ASL+Layout)作为基准。实验结果表明,AV-CONV 在所有任务和指标上都大幅领先基准值。此外,一系列针对对话注意力模块和模型输入的消融实验进一步探索了模型设计细节的有效性。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

具体来说,对话注意力模块中每个组件及其不同的组合都会对整体性能产生影响。可以看到,完全去掉整个注意力模块的直接连接(DIRECT CONCAT)方法在几乎所有任务中都表现最差,而单独使用跨时间注意力(Cross-Time attention)、跨主体注意力(Cross-Subject attention)或全局 - 局部(Global-Local attention)跨模态注意力都对提升性能有积极的贡献。值得注意的是,跨时间的注意力带来了最大的增益,表明从相邻帧中聚合信息对于更可靠地检测语音活动至关重要。

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

针对模型输入的消融实验也揭示了不同模态对整体性能的影响。AV-CONV 的输入模态包括三个部分:1) 从第一人称视频帧裁剪的社交对象头部图像。2) 包含来自第一人称视频的多通道音频的全局特征。3) 头部图像的二值掩码,指定了帧中每个个体的位置,并作为一种介于全局和局部信息之间的表示。实验结果表明,仅使用头部图像会导致所有与说话相关的任务性能显著下降,因为理解说话行为需要音频信息的输入。另一方面,仅使用音频有助于识别相机佩戴者的声音活动,但在其他需要与对话伙伴相关的局部特征的任务上表现不佳。仅使用位置掩码的表现与仅使用头部图像相似,但它可以通过整个场景中头部位置的抽象表示推断出社交伙伴之间的潜在关系。例如,在与倾听相关的子任务上,它的表现优于仅使用头部图像,可能是因为这些任务更多地依赖于空间中社交对象的位置信息。i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态
在这个示例中,摄像机佩戴者和其他两个社交对象同时与他人进行对话。在整个 3 秒的时间窗口内,一些发言者保持持续的对话,而其他人则暂停后继续。从预测值(黄色框)和真实值(绿色框)的对比中可以看到,AV-CONV 能够迅速捕捉到样本中发生的每一个动态演变,并给出准确的预测。

后续工作展望

受限于数据集类型和采集设备,这一工作局限于对话中的社交行为。然而提出的社交图概念可以轻松推广到对其他人类行为,如眼神交流或身体语言的分析。其他可能的后续工作包括使用大生成对话群组的提要及情感分析,以及从未经预定义群组的自由多人对话中挖掘对话群组的分裂、合并等复杂群体动态。

到这里,我们也就讲完了《i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于工程,CVPR的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
全球市值第二高公司,英伟达股票 1 拆 10 力求继续增长全球市值第二高公司,英伟达股票 1 拆 10 力求继续增长
上一篇
全球市值第二高公司,英伟达股票 1 拆 10 力求继续增长
苹果 Apple Vision Pro 官宣 6 月 28 日登陆中国等市场
下一篇
苹果 Apple Vision Pro 官宣 6 月 28 日登陆中国等市场
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    23次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    36次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    37次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    47次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    40次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码