当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界

NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界

来源:机器之心 2023-12-26 11:37:12 0浏览 收藏

小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

在认知神经科学领域,人们意识到人类的感知不仅受到客观刺激的影响,还深受过去的经验所影响。这些因素共同作用,形成了大脑中复杂的活动。因此,解码大脑活动中的视觉信息成为了一项重要的任务。其中,功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,尤其是图像类别方面发挥着关键的作用

然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征学习框架,旨在识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式,成功从大脑活动中重建出高分辨率且语义上准确的图像。

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

论文链接:https://arxiv.org/abs/2305.17214

项目链接:https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像(fMRI)虽广泛用于解析神经反应,但从其数据中准确重建视觉图像仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应过程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。

传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度学习技术,如生成对抗网络(GAN)和潜在扩散模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑活动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。

为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征学习框架,该方法能够有效识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

方法概述即为对于一系列步骤或过程的简要描述。它用于解释如何达到特定目标或完成特定任务。方法概述的目的是提供读者或用户一个对整个过程的整体了解,以便他们能够更好地理解和跟随其中的步骤。在方法概述中,通常包括步骤的顺序、所需的材料或工具以及可能遇到的问题或挑战。通过清晰明了地描述方法概述,读者或用户能够更加容易地理解并成功地完成所需的任务

fMRI 表征学习 (FRL)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

第一阶段:预训练双对比掩模自动编码器 (DC-MAE)

为了在不同人群中区分共有的大脑活动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和一个解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中图片以遮蔽的 fMRI 信号为输入,图片 则被训练以预测未遮蔽的 fMRI 信号。所谓的 “双重对比” 是指模型在 fMRI 表征学习中优化对比损失并参与了两个不同的对比过程。

在第一阶段的对比学习中,每个包含 n 个 fMRI 样本 v 的批次中的样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界被随机遮蔽两次,生成两个不同的遮蔽版本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,作为对比的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器图片。解码器图片 接收这些编码的潜在表示,产生预测值NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。通过 InfoNCE 损失函数计算的第一次对比损失,即交叉对比损失,来优化模型:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在第二阶段对比学习中,每个未遮蔽的原始图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其相应的遮蔽图像NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界形成一对天然正样本。这里的NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界代表解码器图片预测出的图像。第二次对比损失,也就是自对比损失,根据以下公式进行计算:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

优化自对比损失NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界能够实现遮蔽重建。无论是NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界还是图片,负样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界都来自同一批次的实例。图片图片共同按如下方式优化:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界,其中超参数NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界用于调节各损失项的权重。

  • 第二阶段:使用跨模态指导进行调整

鉴于fMRI记录的信噪比较低且高度卷积的特性,对于fMRI特征学习器来说,专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式是至关重要的

在第一阶段预训练后,fMRI 自编码器通过图像辅助进行调整,以实现 fMRI 的重建,第二阶段同样遵循此过程。具体而言,从 n 个样本批次中选择一个样本NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界及其对应的 fMRI 记录的神经反应NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片经过分块和随机遮蔽处理,分别转变为NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片,然后分别输入到图像编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和 fMRI 编码器图片中,生成NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界。为重建 fMRI图片,利用交叉注意力模块将NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界进行合并:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

W 和 b 分别代表相应线性层的权重和偏置。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是缩放因子,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是键向量的维度。CA 是交叉注意力(cross-attention)的缩写。NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界加上图片后,输入到 fMRI 解码器中以重建图片,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

图像自编码器中也进行了类似的计算,图像编码器图片的输出NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界通过交叉注意力模块NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界图片的输出合并,然后用于解码图像图片,得到NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过优化以下损失函数,fMRI 和图像自编码器共同进行训练:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

生成图像时,可以使用潜在扩散模型(LDM)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征学习器的编码器图片来驱动一个潜在扩散模型(LDM),从大脑活动生成图像。如图所示,扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图像潜在扩散模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图像。这里采用交叉注意力机制,将 fMRI 信息融入 LDM,遵循稳定扩散研究的建议。为了强化条件信息的作用,这里采用了交叉注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界和经 FRL 第一和第二阶段训练的 fMRI 编码器图片 处理图像 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损失函数为:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

其中,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界是扩散模型的噪声计划。在推理阶段,过程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向过程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界将隐藏表征转换为图像。

实验

重建结果 

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。

研究结果显示,使用提出的fMRI表征学习框架和预先训练的LDM,能够更好地重建大脑的视觉活动,远远超过目前的基准水平。这项工作有助于进一步挖掘神经解码模型的潜力

今天关于《NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于工程的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
SK 海力士计划在2024年开展HBM4研发,并加快CXL内存的商业化生产SK 海力士计划在2024年开展HBM4研发,并加快CXL内存的商业化生产
上一篇
SK 海力士计划在2024年开展HBM4研发,并加快CXL内存的商业化生产
蔚来最新旗舰轿车 ET9 全球首款全域 900V 高压架构,最快充电速度 600 kW
下一篇
蔚来最新旗舰轿车 ET9 全球首款全域 900V 高压架构,最快充电速度 600 kW
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    28次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    42次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    39次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    42次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码