当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Rokid算法负责人王文兵:AR下的“声”临“奇”境

Rokid算法负责人王文兵:AR下的“声”临“奇”境

来源:51CTO.COM 2023-04-27 11:57:34 0浏览 收藏

大家好,今天本人给大家带来文章《Rokid算法负责人王文兵:AR下的“声”临“奇”境》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

声音在我们的日常生活中无处不在,是不可或缺的一部分,在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感,需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上,Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷,诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下: 

什么是6dof空间声场?

谈及这个问题时,可以先抛开技术的限制,想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道,家庭影院已经用上了multi-channel,电影院等专业场景还有空间布局上的喇叭。 

在AR上它究竟应该如何去呈现呢?我们可以试想一个画面,比如现在很流行的在线会议或在线教育,如果在元宇宙世界里看到右边的数字人一直在说话,但这个声音从你的左边出来,这个时候是不是感觉很奇怪? 

另外我们可以想象一下AR游戏,在以前这种2D的视觉里,声音跟着视觉的焦点去移动就可以,但是在3D场景的360度的范围下,人的双眼是无法抓住整个视觉焦点的,而声音是具备全局焦点的。这也是为什么在很多游戏里,人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性:需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。 

接下来从三个维度介绍一下声音形态的发展之路。 

Rokid算法负责人王文兵:AR下的“声”临“奇”境

第一,空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/...这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等,喇叭越来越多,摆放位置也从平面上升到空间了;

第二,编码方式维度。从最开始的channel-based(也就是基于通道的编码,每个通道上会有各种各样的声音,比如我们平时常见的左右声道的表达方式),到object-based(也就是针对发生的对象进行编码),包括大家在电影院观看到的Dolby Atmos片源,比如当某个炮弹打下来的时候,那个炮弹的对象是专门编码的,metadata中记录了其运动的轨迹,然后根据对应的喇叭位置进行播放的;但我们最终的目标还是希望达到完全基于场景下的效果,类似于HOA这样的全景声方式,不只是炮弹,一花一草一树叶的掉落我们都希望它是具备空间感。  

第三,XR体验维度。以前虚拟的声音和真实世界是割裂的,如今在XR里,尤其是AR方面,我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分,是因为双耳模式,专业上来说是ITD和ILD,也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。 

那么如何让3D声音普及?如何突破场地局限性?如何降低用户消费成本?如何能够让每个人都享受科技?Rokid 自研的6dof空间声场将助力解决这些难题。 

6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表达六自由度,由陀螺仪提供绕XYZ三个方向的旋转,由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

Rokid算法负责人王文兵:AR下的“声”临“奇”境 

6dof空间声场的主要技术 

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数,其是在模拟一个消音室的环境下,全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力,可以虚实融合,完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时,进行声音品质的丰富。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

架构图最上面的SDK,对外提供了空间模块,即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模,有助于数字世界和物理世界的融合。

此外,我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异,首先是构建网络,然后生成理论下的无损的网络,之后在这个理论的基础上做各种衰减、损耗的相关设置,包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效,我们只是结合着产品的使用场景,比如影院或者音乐,提供音效以让用户达到良好的视听体验,这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果,当从0度到90度旋转时,每个频率的变化是不平滑的,而且最开始下降的很厉害,后面的变化非常小。右边的Rokid所做的6dof空间声场,不同的频率段跟着你的方位变换的时候有明显的变化,图中为不同角度、不同频率段、不同幅值的表现。

  Rokid算法负责人王文兵:AR下的“声”临“奇”境   

6dof空间声场的发展趋势   

随着元宇宙时代的来临,AR、VR技术的兴起,空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面: 

一是沉浸感,人们可以根据真实的世界进行反馈,更好地进行虚实融合与交互,真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我,不受真实世界中任何物体的影响,因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互,比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互,去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。 

二是精细化,在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传,因为头传本身的生成手段就比较费时费力,需要对整个球面空间上不同距离下的每个点进行播放,然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度,以及如何通过插值或其他技术手段实现更高的精确度;同时,从更长远的角度来看,精细化的一个极限是私定制的实现。 

三是私密性与音效,体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如,严重的混响是会影响人类的听感,而适宜的混响是会带来音质上的丰富听感;尤其是早期的混响,很多时候会被用于音色的判断,低于3K的混响和横向反射会有助于形成更好的空间感和深度感,而高频的分量会帮助我们实现环绕感。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

探索空间声场的初衷

Rokid为何会做空间声场?主要有三个方面的原因:

一,沉浸感。我们一直在追求数字世界与物理世界的融合,比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。 

二,虚实交互。我们认为未来在这世界会是一种虚实的融合,在融合的基础上可以去做很多交互,包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面,这种感知之后则形成对虚拟声音的影响;主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三,极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的,但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求?这涉及到算法、工程、系统、硬件以及应用等整体的优化。 

这些是我们一直所追求的使命,Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众;与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放,从而通过广大开发者们的使用,间接的惠及到用户,赋能到各行各业。

现大会演讲回放及PPT已上线,进入官网查看精彩内容(https://aisummit.51cto.com/

以上就是《Rokid算法负责人王文兵:AR下的“声”临“奇”境》的详细内容,更多关于人工智能,AR的资料请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
AI制造的假照片,你能认出来吗?AI制造的假照片,你能认出来吗?
上一篇
AI制造的假照片,你能认出来吗?
合成数据能让人工智能变得更好吗?
下一篇
合成数据能让人工智能变得更好吗?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    12次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    11次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    10次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    16次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码