Meta:不用插管!AI看看脑电图就知道你在想啥
大家好,今天本人给大家带来文章《Meta:不用插管!AI看看脑电图就知道你在想啥》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!
每年,全世界有超过 6900 万人饱受创伤性脑损伤的折磨,他们中的许多人无法通过语音、打字或手势进行交流。如果研究人员开发出一种技术,可以通过非侵入性的方式直接从大脑活动解码语言,这些人的生活将会大大改善。 现在,Meta搞了个新研究,就是要解决这个事儿。
刚刚,Meta AI官方博客发文,介绍了可利用AI从大脑活动中直接解码语音的新技术。
从一段时间为3秒的大脑活动中,这个AI可以从人们日常使用的 793 个单词的词汇表中解码相应的语音片段,准确率高达 73%。
以往,从大脑活动中解码语音一直是神经科学家和临床医生的长期目标,但大部分进展依赖于侵入性大脑记录技术,例如立体定向脑电图和皮层电图。
这些设备可以提供比无创方法更清晰的信号,但需要神经外科干预。
虽然这项工作的结果表明从大脑活动记录中解码语音是可行的,但使用非侵入性方法解码语音将提供一种更安全、更具可扩展性的解决方案,最终可以使更多人受益。
然而,这是非常具有挑战性的,因为非侵入式录音是出了名的嘈杂,并且由于各种原因,包括每个人的大脑和传感器放置位置的差异,录音会话和个人之间可能会有很大差异。 Meta通过创建一个经过对比学习训练的深度学习模型来应对这些挑战,然后使用它来最大限度地对齐非侵入性大脑记录和语音。
为此,Meta使用一个由 FAIR 团队于 2020 年开发的、开源的自我监督学习模型wave2vec 2.0,来识别听有声读物的在志愿者大脑中语音的复杂表示。 Meta主要关注两种非侵入性技术:脑电图和脑磁图(简称 EEG 和 MEG),分别测量由神经元活动引起的电场和磁场的波动。
在实践中,这两个系统每秒可以使用数百个传感器拍摄大约 1000 个宏观大脑活动的快照。 Meta利用了来自学术机构的四个开源 EEG 和 MEG 数据集,利用了 169 名健康志愿者的 150 多个小时的录音,在这些录音中,是他们正在听有声读物和英语和荷兰语的孤立句子。
然后,Meta将这些 EEG 和 MEG 记录输入到一个「大脑」模型中,该模型由一个带有残差连接的标准深度卷积网络组成。
众所周知,EEG 和 MEG 记录在个体之间存在很大差异,因为个体大脑解剖结构、大脑区域神经功能的位置和时间差异以及记录期间传感器的位置。
在实践中,这意味着分析大脑数据通常需要一个复杂的工程管道,用于重新调整模板大脑上的大脑信号。在以前的研究中,大脑解码器接受了少量录音的训练,以预测一组有限的语音特征,例如词性类别或少量词汇中的单词。
为了方便研究,Meta设计了一个新的主题嵌入层,它被训练成端到端,将所有的大脑记录排列在一个共同的空间。
为了从非侵入性大脑信号中解码语音,Meta训练了一个具有对比学习的模型,以校准语音及其相应的大脑活动 最后,Meta的架构学会了将大脑模型的输出,与呈现给参与者的语音的深度表征相匹配。
在Meta之前的工作中,我们使用wav2vec 2.0,表明这种语音算法会自动学习生成与大脑一致的语音表示。
wav2vec 2.0中出现的语音“类脑”表示,使Meta的研究人员自然而然地选择构建自己的解码器,因为它有助于让Meta的研究人员了解,应该从大脑信号中提取哪些表示。
Meta最近展示了 wav2vec 2.0(左)的激活映射到大脑(右)以响应相同的语音。算法的第一层(冷色)的表示映射到早期听觉皮层,而最深层映射到高级大脑区域(例如前额叶和顶叶皮层)
训练后,Meta的系统执行所谓的零样本分类:给定一个大脑活动片段,它可以从大量新音频片段中确定该人实际听到的是哪个片段。
算法推断出这个人最有可能听到的词。这是一个令人兴奋的步骤,因为它表明人工智能可以成功地学会在感知语音时解码大脑活动的嘈杂和可变的非侵入性记录。
下一步是看看研究人员是否可以扩展这个模型,直接从大脑活动中解码语音,而不需要音频剪辑池,即,转向安全和多功能的语音解码器。 研究人员的分析进一步表明,我们算法的几个组成部分,包括使用 wav2vec 2.0 和主题层,对解码性能是有益的。
此外,Meta的算法随着 EEG 和 MEG 记录的数量而改进。 实际上,这意味着Meta研究人员的方法受益于大量异构数据的提取,并且原则上可以帮助改进小型数据集的解码。
这很重要,因为在许多情况下,很难让给定的参与者收集大量数据。例如,要求患者在扫描仪上花费数十个小时来检查系统是否适合他们是不切实际的。 相反,算法可以在包括许多个人和条件的大型数据集上进行预训练,然后在数据很少的情况下为新患者的大脑活动提供解码支持。
Meta的研究令人鼓舞,因为结果表明,经过自我监督训练的人工智能可以成功地从大脑活动的非侵入性记录中解码感知到的语音,尽管这些数据中存在固有的噪声和可变性。 当然,这些结果只是第一步。在这项研究工作中,Meta专注于解码语音感知,但实现患者交流的最终目标需要将这项工作扩展到语音生产。
这一研究领域甚至可以超越帮助患者,潜在地包括启用与计算机交互的新方式。
从更大的视野来看,Meta的工作是科学界使用人工智能更好地理解人类大脑的努力的一部分。Meta希望公开分享这项研究,以加快应对未来挑战的进展。
论文解析
论文链接:https://arxiv.org/pdf/2208.12266.pdf
本文提出了一个单一的端到端架构,在大量的个体群中进行对比性学习训练,以预测自然语音的自监督表示。
我们在四个公共数据集上评估了模型,其中包括169名志愿者在听自然语音时用脑磁图或脑电图(M/EEG)记录的数据。
这为从非侵入性的大脑活动记录中实时解码自然语言处理提供了一条新的思路。
方法和架构
我们首先正式确定了神经解码的通用任务,并激励使用对比性损失进行训练。在介绍用于大脑解码的深度学习架构之前,我们介绍了由预训练的自我监督模块wav2vec 2.0提供的丰富的语音表示。
我们的目标是在健康志愿者被动地听他们的母语口语句子时,从用无创脑磁图(MEG)或脑电图(EEG)记录的高维大脑信号的时间序列中解码语音。
口语是如何在大脑中表示的在很大程度上是未知的,因此,通常以监督的方式训练解码器,以预测已知与大脑有关的语音的潜在表示。
从经验上看,我们观察到这种直接回归的方法面临几个挑战:当语音出现时,解码预测似乎被一个不可区分的宽带成分所支配(图2.A-B)。
这一挑战促使我们做出三个主要贡献:引入对比性损失、预训练好的深层语音表征和专门的大脑解码器。
1、对比性损失
首先,我们推断,回归可能是一种无效的损失,因为它偏离了我们的目标:从大脑活动中解码语音。因此,我们用一种对比性损失来代替它,即 "CLIP "损失,它最初被设计用来匹配文本和图像这两种模式中的潜在表征。
2、预训练的深度语音表征
其次,Mel频谱是语音的低层次表征,因此不太可能与丰富的皮质表征相匹配。 因此,我们用语音的潜在表征取代了Mel频谱Y,这些表征要么是端到端学习的("Deep Mel "模型),要么是用一个独立的自我监督的语音模型学习的。 在实践中,我们使用wav2vec2-large-xlsr-531,它已经对53种不同语言的56k小时的语音进行了预训练。
3、专门的「大脑解码器」
最后,对于大脑模块,我们使用一个深度神经网络fclip,输入原始的M/EEG时间序列X和相应的主题s的单次编码,并输出潜在的大脑表示Z,其采样率与X相同。
这个架构包括(1)在M/EEG传感器上的空间注意力层,然后由一个针对特定对象的1x1卷积设计,以利用对象间的变异性,其输入是卷积块的堆叠。
结果显示,wav2vec 2.0 模型可以从3秒的脑电信号中识别出相应的语音片段,在1,594个不同的片段中,准确率高达72.5%,在2,604个脑电记录片段中,准确率高达19.1%,可以对训练集中没有的短语进行解码。
本篇关于《Meta:不用插管!AI看看脑电图就知道你在想啥》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 量子CNN对数据集的测试准确率高,但存在局限性

- 下一篇
- 黄仁勋专访:经济不景气又怎样?未来元宇宙将「全民免费」!
-
- 英勇的大门
- 受益颇多,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,看完之后很有帮助,总算是懂了,感谢作者大大分享文章内容!
- 2023-04-25 10:21:16
-
- 会撒娇的热狗
- 这篇技术文章真是及时雨啊,太细致了,受益颇多,已收藏,关注作者大大了!希望作者大大能多写科技周边相关的文章。
- 2023-04-19 22:56:22
-
- 科技周边 · 人工智能 | 1小时前 |
- 沃尔沃XC70亮相,SMA混动加持,年内上市
- 236浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 用豆包A/生成的表情包如何赚钱
- 191浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 小米汽车五一出行报告:超1亿公里行驶
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 | 法拉第未来 第一季度财报 FXSuperOne FX车型 汉福德工厂
- 法拉第未来Q1营收30万,亏损4380万
- 392浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 6次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 6次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 6次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 13次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 25次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览