耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本
耶鲁、剑桥等大学的研究人员开发出MindLLM模型,实现了将功能性磁共振成像(fMRI)信号直接解码为文本的突破。该模型克服了现有方法预测性能差、任务种类有限及跨受试者泛化能力弱等问题,通过主题无关的fMRI编码器和预训练大型语言模型(LLM)的结合,以及创新的“大脑指令调整”(BIT)方法,显著提升了fMRI到文本解码的准确性和通用性。MindLLM在基准测试中表现优于现有技术,在不同下游任务、未知主题泛化和新任务适应性方面均取得了显著改进,为脑机接口和神经科学研究带来了新的可能性,例如帮助语言障碍者恢复沟通能力,并实现对数字设备的更直观控制。

编辑 | 萝卜皮
将功能性磁共振成像 (fMRI) 信号解码为文本一直是神经科学界面临的一项重大挑战,它有望推动脑机接口的发展,并加深对大脑机制的了解。然而,现有的方法往往存在预测性能不佳、任务种类有限以及跨受试者泛化能力较差等问题。
针对这一问题,耶鲁大学(Yale University)、达特茅斯学院(Dartmouth College)和剑桥大学(University of Cambridge)的研究人员提出了 MindLLM,一种专为主题无关且用途广泛的 fMRI 到文本解码而设计的模型。
此外,研究人员提出了一种新方法——大脑指令调整 (BIT),可增强模型从 fMRI 信号中捕获不同语义表示的能力,从而促进更通用的解码。
在全面的 fMRI 到文本基准上的评估中, MindLLM 优于基线,下游任务提高了 12.0%,未知主题泛化提高了 16.4%,新任务适应提高了 25.0%。此外,MindLLM 中的注意力模式为其决策过程提供了可解释的见解。
该研究以「MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding」为题,于 2025 年 2 月 18 日发布在 arXiv 预印平台。

解码人类大脑活动(fMRI)为文本在神经科学领域引起了广泛关注。这一技术不仅为认知、行为和意识研究提供了新视角,还具有重要的社会应用价值。
例如,它可以帮助语言障碍者恢复沟通能力,使他们能够轻松表达思想;同时,它还能实现健康人群对数字设备(如具身 AI 或假肢)的神经控制,使操作更加直观和精确。
然而,该技术仍面临重大挑战:一是需要针对不同应用场景开发多功能解码模型,现有方法如 UMBRAE 虽能映射 fMRI 数据到刺激图像,但无法处理更广泛的任务(如记忆检索);二是缺乏统一且不依赖个体的解码架构,当前方法依赖预处理选择响应体素,导致输入维度不一致和空间信息丢失,影响性能。
研究人员提出了 MindLLM,一种用于 fMRI 到文本解码的主题无关且通用的模型。该方法包括一个主题无关的 fMRI 编码器和一个现成的 LLM。

图示:MindLLM 概述。(来源:论文)
主题无关的 fMRI 编码器将神经科学信息注意层与可学习查询相结合,通过利用体素的空间信息和神经科学先验来实现动态特征提取,从而显著提高预测准确性。值和键的设计将体素的功能信息(在个体之间基本一致)与其 fMRI 值分开,从而使模型能够受益于跨主体共享的先验,并增强对新主体的概括性。
为了应对多功能解码的挑战,研究人员提出了脑指令调整(BIT)。BIT 使用以图像为中介的多样化数据集来训练模型,涵盖旨在捕获 fMRI 数据中编码的语义信息的不同方面的任务,包括感知和场景理解、记忆和知识检索、语言和符号处理以及复杂推理。

图示:我们的模型与之前的统一模型的比较。(来源:论文)
研究人员在综合基准上评估了 MindLLM。结果表明,它的表现优于基线,在各种下游任务中平均提高了 12.0%,在未见过的主题上的泛化提高了 16.4%。
MindLLM 能够有效地适应新任务,在实际应用中表现出很高的可定制性和灵活性。此外,对注意力权重的分析为该团队 fMRI 编码器的工作机制提供了宝贵的见解。
论文链接:https://arxiv.org/abs/2502.15786
相关报道:https://medicalxpress.com/news/2025-02-brain-imaging-text-mindllm.html
今天关于《耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于人工智能,大脑,科学,理论,神经科学的内容请关注golang学习网公众号!
Emotion维护者抛弃CSS-in-JS:中文解读及原因分析
- 上一篇
- Emotion维护者抛弃CSS-in-JS:中文解读及原因分析
- 下一篇
- Jeesite微服务部署教程:超详细步骤及常见问题解答
-
- 科技周边 · 人工智能 | 3小时前 |
- 爆款AI视频生成器免费入口推荐
- 117浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- Kling物理模拟教程:真实交互设置详解
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- Deepseek满血版与AIPRM对话优化对比
- 217浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- AIOverviews生成教程与实用技巧
- 458浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- ChatGPT国内注册方法及最新流程详解
- 246浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 豆包网页版入口与使用教程
- 329浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 文心一言对话生成器官网入口
- 395浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3211次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3425次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3454次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4564次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3832次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

