当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

来源:51CTO.COM 2023-06-23 16:06:38 0浏览 收藏

一分耕耘,一分收获!既然打开了这篇文章《再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!

最近几年,「视频会议」在工作中的占比逐渐增加,厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点,要是对话中提到了一些对方很陌生的名词,并且很难用语言描述出来,比如食物「寿喜烧」,或是说「上周去了某个公园度假」,很难用语言给对方描述出的美景;甚至是指出「东京位于日本关东地区」,需要一张地图来展示等,如果只用语言可能会让对方越来越迷茫。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

最近,谷歌在人机交互顶级会议ACM CHI(Conference on Human Factors in Computing Systems)上展示了一个系统Visual Captions,介绍了远程会议中的一个全新视觉解决方案,可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

论文链接:https://research.google/pubs/pub52074/

代码链接:https://github.com/google/archat

Visual Captions系统基于一个微调后的大型语言模型,可以在开放词汇的对话中主动推荐相关的视觉元素,并已融入开源项目ARChat中。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

在用户调研中,研究人员邀请了实验室内的26位参与者,与实验室外的10位参与者对系统进行评估,超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐,并可以提升交流体验。

设计思路

在开发之前,研究人员首先邀请了10位内部参与者,包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等技术与非技术背景的从业者,讨论对实时视觉增强服务的特定需求和期望。

两次会议后,根据现有的文本转图像系统,确立了预期原型系统的基本设计,主要包括八个维度(记为D1至D8)。

D1:时序,视觉增强系统可与对话同步或异步展现

D2:主题,可用于表达和理解语音内容

D3:视觉,可使用广泛的视觉内容、视觉类型和视觉源

D4:规模,根据会议规模的不同,视觉增强效果可能有所不同

D5:空间,视频会议是在同一地点还是在远程设置中

D6:隐私,这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7:初始状态,参与者还确定了他们希望在进行对话时与系统交互的不同方式,例如,不同级别的「主动性」,即用户可以自主确定系统何时介入聊天D8:交互,参与者设想了不同的交互方法,例如,使用语音或手势进行输入

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

用动态的视觉效果增强语言交流的设计空间

根据初步反馈,研究人员设计了Video Caption系统,专注于生成语义相关的视觉内容、类型和来源的同步视觉效果。

虽然在探索性会议中的想法大多关注于一对一远程对话的形式,Video Caption同样也可以用于一对多的(例如,向观众进行演示)和多对多场景(多人会议讨论)的部署。

除此之外,最能补充对话的视觉效果在很大程度上取决于讨论的上下文,所以需要一个专门制作的训练集。

研究人员收集了1595个四元组,包括语言、视觉内容、类型、来源,涵盖了各种上下文场景,包括日常对话、讲座、旅行指南等。

比如用户说「我很想看看!」(I would love to see it!)对应于「面部微笑」(face smiling)的视觉内容、「表情符号」(emoji)的视觉类型和「公共搜索」(public search)的视觉源。

「她有没有告诉你我们去墨西哥的事?」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集VC 1.5K目前已开源。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

数据链接:https://github.com/google/archat/tree/main/dataset

视觉意图预测模型

为了预测哪些视觉效果可以补充对话,研究人员使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段,每个视觉意图解析为「 of from 」的格式。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

基于该格式,系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

这种方法在实践中也优于基于关键词的方法,因为后者无法处理开放式词汇的例子,比如用户可能会说「你的艾米阿姨将在这个星期六来访」,没有匹配到关键词,也就无法推荐相关的视觉类型或视觉来源。

研究人员使用VC1.5K数据集中的1276个(80%)样本来微调大型语言模型,其余319个(20%)示例作为测试数据,并使用token准确率指标来度量微调模型的性能,即模型正确预测的样本中token正确的百分比。

最终模型可以实现97%的训练token准确率和87%的验证token准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性,研究团队邀请了89名参与者执行846项任务,要求对效果进行打分,1为非常不同意(strongly disagree)、7为非常同意(strongly agree)。

实验结果显示,大多数参与者更喜欢在对话中看到视觉效果(Q1),83% 给出了5-有些同意(somewhat agree)以上的评价。

此外,参与者认为显示的视觉效果是有用的且信息丰富的(Q2),82%给出了高于5分的评价;高质量的(Q3),82%给出了高于5分的评价;并与原始语音相关(Q4,84%)。

参与者还发现预测的视觉类型(Q5,87%)和视觉来源(Q6,86%)在相应对话的背景下是准确的。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型,研究人员在ARChat平台上开发了Visual Captions,可以直接在视频会议平台(如Google Meet)的摄像头流上添加新的交互式小部件。

在系统工作流程中,Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果,然后提供推荐的视觉效果。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

Visual Captions的系统工作流

Visual Captions在推荐视觉效果时提供三个级别的可选主动性:

自动显示(高主动性):系统自主搜索并向所有会议参与者公开显示视觉效果,无需用户交互。

自动推荐(中等主动性):推荐的视觉效果显示在私人滚动视图中,然后用户点击一个视觉对象可以进行公开展示;在这种模式下,系统会主动推荐视觉效果,但用户决定何时显示以及显示什么。

按需建议(低主动性):用户按下空格键后,系统才会推荐视觉效果。

研究人员在对照实验室研究(n = 26)和测试阶段部署研究(n = 10)中评估了Visual Captions系统,参与者发现,实时视觉效果有助于解释不熟悉的概念、解决语言歧义,并使对话更具吸引力,从而促进了现场对话。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

参与者的task load指数和Likert scale评级,包括无VC、以及三个不同主动性的VC

与会者还报告了在现场进行交互中的不同的系统偏好,即在不同的会议场景中使用不同程度的VC主动性

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Redis实现分布式事务的性能测试与结果分析Redis实现分布式事务的性能测试与结果分析
上一篇
Redis实现分布式事务的性能测试与结果分析
微盟联合腾讯云共建行业大模型,加快激活AI大模型智能应用
下一篇
微盟联合腾讯云共建行业大模型,加快激活AI大模型智能应用
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    9次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    9次使用
  • AI音乐实验室:一站式AI音乐创作平台,助力音乐创作
    AI音乐实验室
    AI音乐实验室(https://www.aimusiclab.cn/)是一款专注于AI音乐创作的平台,提供从作曲到分轨的全流程工具,降低音乐创作门槛。免费与付费结合,适用于音乐爱好者、独立音乐人及内容创作者,助力提升创作效率。
    9次使用
  • SEO标题PixPro:AI驱动网页端图像处理平台,提升效率的终极解决方案
    PixPro
    SEO摘要PixPro是一款专注于网页端AI图像处理的平台,提供高效、多功能的图像处理解决方案。通过AI擦除、扩图、抠图、裁切和压缩等功能,PixPro帮助开发者和企业实现“上传即处理”的智能化升级,适用于电商、社交媒体等高频图像处理场景。了解更多PixPro的核心功能和应用案例,提升您的图像处理效率。
    9次使用
  • EasyMusic.ai:零门槛AI音乐生成平台,专业级输出助力全场景创作
    EasyMusic
    EasyMusic.ai是一款面向全场景音乐创作需求的AI音乐生成平台,提供“零门槛创作 专业级输出”的服务。无论你是内容创作者、音乐人、游戏开发者还是教育工作者,都能通过EasyMusic.ai快速生成高品质音乐,满足短视频、游戏、广告、教育等多元需求。平台支持一键生成与深度定制,积累了超10万创作者,生成超100万首音乐作品,用户满意度达99%。
    12次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码