NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界
小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!
在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。
在认知神经科学领域,人们意识到人类的感知不仅受到客观刺激的影响,还深受过去的经验所影响。这些因素共同作用,形成了大脑中复杂的活动。因此,解码大脑活动中的视觉信息成为了一项重要的任务。其中,功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,尤其是图像类别方面发挥着关键的作用
然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征学习框架,旨在识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式,成功从大脑活动中重建出高分辨率且语义上准确的图像。

论文链接:https://arxiv.org/abs/2305.17214
项目链接:https://github.com/soinx0629/vis_dec_neurips/
论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。
功能性磁共振成像(fMRI)虽广泛用于解析神经反应,但从其数据中准确重建视觉图像仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应过程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。
传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度学习技术,如生成对抗网络(GAN)和潜在扩散模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑活动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。
为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征学习框架,该方法能够有效识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。
方法概述即为对于一系列步骤或过程的简要描述。它用于解释如何达到特定目标或完成特定任务。方法概述的目的是提供读者或用户一个对整个过程的整体了解,以便他们能够更好地理解和跟随其中的步骤。在方法概述中,通常包括步骤的顺序、所需的材料或工具以及可能遇到的问题或挑战。通过清晰明了地描述方法概述,读者或用户能够更加容易地理解并成功地完成所需的任务
fMRI 表征学习 (FRL)

第一阶段:预训练双对比掩模自动编码器 (DC-MAE)
为了在不同人群中区分共有的大脑活动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器
和一个解码器
,其中
以遮蔽的 fMRI 信号为输入,
则被训练以预测未遮蔽的 fMRI 信号。所谓的 “双重对比” 是指模型在 fMRI 表征学习中优化对比损失并参与了两个不同的对比过程。
在第一阶段的对比学习中,每个包含 n 个 fMRI 样本 v 的批次中的样本
被随机遮蔽两次,生成两个不同的遮蔽版本
和
,作为对比的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器
。解码器
接收这些编码的潜在表示,产生预测值
和
。通过 InfoNCE 损失函数计算的第一次对比损失,即交叉对比损失,来优化模型:

在第二阶段对比学习中,每个未遮蔽的原始图像
及其相应的遮蔽图像
形成一对天然正样本。这里的
代表解码器
预测出的图像。第二次对比损失,也就是自对比损失,根据以下公式进行计算:

优化自对比损失
能够实现遮蔽重建。无论是
还是
,负样本
都来自同一批次的实例。
和
共同按如下方式优化:
,其中超参数
和
用于调节各损失项的权重。
第二阶段:使用跨模态指导进行调整
鉴于fMRI记录的信噪比较低且高度卷积的特性,对于fMRI特征学习器来说,专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式是至关重要的
在第一阶段预训练后,fMRI 自编码器通过图像辅助进行调整,以实现 fMRI 的重建,第二阶段同样遵循此过程。具体而言,从 n 个样本批次中选择一个样本
及其对应的 fMRI 记录的神经反应
。
和
经过分块和随机遮蔽处理,分别转变为
和
,然后分别输入到图像编码器
和 fMRI 编码器
中,生成
和
。为重建 fMRI
,利用交叉注意力模块将
和
进行合并:

W 和 b 分别代表相应线性层的权重和偏置。
是缩放因子,
是键向量的维度。CA 是交叉注意力(cross-attention)的缩写。
加上
后,输入到 fMRI 解码器中以重建
,得到
:

图像自编码器中也进行了类似的计算,图像编码器
的输出
通过交叉注意力模块
与
的输出合并,然后用于解码图像
,得到
:
通过优化以下损失函数,fMRI 和图像自编码器共同进行训练:

生成图像时,可以使用潜在扩散模型(LDM)

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征学习器的编码器
来驱动一个潜在扩散模型(LDM),从大脑活动生成图像。如图所示,扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。
该研究通过从预训练的标签至图像潜在扩散模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图像。这里采用交叉注意力机制,将 fMRI 信息融入 LDM,遵循稳定扩散研究的建议。为了强化条件信息的作用,这里采用了交叉注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器
和经 FRL 第一和第二阶段训练的 fMRI 编码器
处理图像 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损失函数为:
其中,
是扩散模型的噪声计划。在推理阶段,过程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向过程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器
将隐藏表征转换为图像。
实验
重建结果

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。
研究结果显示,使用提出的fMRI表征学习框架和预先训练的LDM,能够更好地重建大脑的视觉活动,远远超过目前的基准水平。这项工作有助于进一步挖掘神经解码模型的潜力
今天关于《NeurIPS23|视觉还原:利用大脑活动描绘你眼中的世界》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于工程的内容请关注golang学习网公众号!
SK 海力士计划在2024年开展HBM4研发,并加快CXL内存的商业化生产
- 上一篇
- SK 海力士计划在2024年开展HBM4研发,并加快CXL内存的商业化生产
- 下一篇
- 蔚来最新旗舰轿车 ET9 全球首款全域 900V 高压架构,最快充电速度 600 kW
-
- 科技周边 · 人工智能 | 1分钟前 | 讯飞火星AI
- 讯飞火星AI报告生成技巧
- 288浏览 收藏
-
- 科技周边 · 人工智能 | 2分钟前 | 文心一言 账号注册
- 文心一言登录入口及注册安全教程
- 118浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 | 通义千问
- 通义千问PPT排版技巧与模板切换方法
- 238浏览 收藏
-
- 科技周边 · 人工智能 | 45分钟前 |
- 文心一言登录入口及网页访问教程
- 441浏览 收藏
-
- 科技周边 · 人工智能 | 50分钟前 | java php
- AIGC检测免费入口及知网查重链接
- 253浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | java php
- 豆包AI写作入口快速访问指南
- 323浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Flask封装AI接口教程:构建模型API方法
- 224浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 吉利银河星耀6:空间车机好评多悬挂定价争议大
- 125浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 旅行计划 DeepSeek
- DeepSeek行程规划攻略:景点与预算全解析
- 308浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 文心一言官网入口及网页访问方式
- 113浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 网络钓鱼
- 金融网络钓鱼治理与防范对策分析
- 339浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | AI智能写作
- AI智能写作官网入口与访问方式
- 292浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3293次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3502次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3534次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4646次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3911次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

