当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 耶鲁、剑桥等开发MindLLM，将脑成像直接转换为文本

耶鲁、剑桥等开发MindLLM，将脑成像直接转换为文本

来源：机器之心 2025-03-05 09:01:11 0浏览收藏

耶鲁、剑桥等大学的研究人员开发出MindLLM模型，实现了将功能性磁共振成像(fMRI)信号直接解码为文本的突破。该模型克服了现有方法预测性能差、任务种类有限及跨受试者泛化能力弱等问题，通过主题无关的fMRI编码器和预训练大型语言模型(LLM)的结合，以及创新的“大脑指令调整”(BIT)方法，显著提升了fMRI到文本解码的准确性和通用性。MindLLM在基准测试中表现优于现有技术，在不同下游任务、未知主题泛化和新任务适应性方面均取得了显著改进，为脑机接口和神经科学研究带来了新的可能性，例如帮助语言障碍者恢复沟通能力，并实现对数字设备的更直观控制。

编辑 | 萝卜皮

将功能性磁共振成像 (fMRI) 信号解码为文本一直是神经科学界面临的一项重大挑战，它有望推动脑机接口的发展，并加深对大脑机制的了解。然而，现有的方法往往存在预测性能不佳、任务种类有限以及跨受试者泛化能力较差等问题。

针对这一问题，耶鲁大学（Yale University）、达特茅斯学院（Dartmouth College）和剑桥大学（University of Cambridge）的研究人员提出了 MindLLM，一种专为主题无关且用途广泛的 fMRI 到文本解码而设计的模型。

此外，研究人员提出了一种新方法——大脑指令调整 (BIT)，可增强模型从 fMRI 信号中捕获不同语义表示的能力，从而促进更通用的解码。

在全面的 fMRI 到文本基准上的评估中， MindLLM 优于基线，下游任务提高了 12.0%，未知主题泛化提高了 16.4%，新任务适应提高了 25.0%。此外，MindLLM 中的注意力模式为其决策过程提供了可解释的见解。

该研究以「MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding」为题，于 2025 年 2 月 18 日发布在 arXiv 预印平台。

解码人类大脑活动（fMRI）为文本在神经科学领域引起了广泛关注。这一技术不仅为认知、行为和意识研究提供了新视角，还具有重要的社会应用价值。

例如，它可以帮助语言障碍者恢复沟通能力，使他们能够轻松表达思想；同时，它还能实现健康人群对数字设备（如具身 AI 或假肢）的神经控制，使操作更加直观和精确。

然而，该技术仍面临重大挑战：一是需要针对不同应用场景开发多功能解码模型，现有方法如 UMBRAE 虽能映射 fMRI 数据到刺激图像，但无法处理更广泛的任务（如记忆检索）；二是缺乏统一且不依赖个体的解码架构，当前方法依赖预处理选择响应体素，导致输入维度不一致和空间信息丢失，影响性能。

研究人员提出了 MindLLM，一种用于 fMRI 到文本解码的主题无关且通用的模型。该方法包括一个主题无关的 fMRI 编码器和一个现成的 LLM。

图示：MindLLM 概述。（来源：论文）

主题无关的 fMRI 编码器将神经科学信息注意层与可学习查询相结合，通过利用体素的空间信息和神经科学先验来实现动态特征提取，从而显著提高预测准确性。值和键的设计将体素的功能信息（在个体之间基本一致）与其 fMRI 值分开，从而使模型能够受益于跨主体共享的先验，并增强对新主体的概括性。

为了应对多功能解码的挑战，研究人员提出了脑指令调整（BIT）。BIT 使用以图像为中介的多样化数据集来训练模型，涵盖旨在捕获 fMRI 数据中编码的语义信息的不同方面的任务，包括感知和场景理解、记忆和知识检索、语言和符号处理以及复杂推理。

图示：我们的模型与之前的统一模型的比较。（来源：论文）

研究人员在综合基准上评估了 MindLLM。结果表明，它的表现优于基线，在各种下游任务中平均提高了 12.0%，在未见过的主题上的泛化提高了 16.4%。

MindLLM 能够有效地适应新任务，在实际应用中表现出很高的可定制性和灵活性。此外，对注意力权重的分析为该团队 fMRI 编码器的工作机制提供了宝贵的见解。

论文链接：https://arxiv.org/abs/2502.15786

相关报道：https://medicalxpress.com/news/2025-02-brain-imaging-text-mindllm.html

今天关于《耶鲁、剑桥等开发MindLLM，将脑成像直接转换为文本》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于人工智能,大脑,科学,理论,神经科学的内容请关注golang学习网公众号！

人工智能大脑科学理论神经科学

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

Emotion维护者抛弃CSS-in-JS：中文解读及原因分析

Emotion维护者抛弃CSS-in-JS：中文解读及原因分析

上一篇: Emotion维护者抛弃CSS-in-JS：中文解读及原因分析

Jeesite微服务部署教程：超详细步骤及常见问题解答

下一篇: Jeesite微服务部署教程：超详细步骤及常见问题解答

查看更多

最新文章

科技周边 · 人工智能 | 17分钟前 |

Ollama本地模型管理与加载教程

397浏览收藏
科技周边 · 人工智能 | 36分钟前 |

豆包AI隐藏模板引热议，三天爆火相亲图遭吐槽

418浏览收藏
科技周边 · 人工智能 | 54分钟前 |

豆包AI优化Log4j的5个实用技巧

348浏览收藏
科技周边 · 人工智能 | 55分钟前 | GPT-5 大模型 Claude 多模态 Gemini

GPT-5对比ClaudeGemini，性能优劣全解析

107浏览收藏
科技周边 · 人工智能 | 1小时前 |

Deepseek满血版搭配Loom，轻松制作视频讲解

205浏览收藏
科技周边 · 人工智能 | 1小时前 |

PerplexityAI插件开发入门教程详解

110浏览收藏
科技周边 · 人工智能 | 1小时前 |

Deepseek满血版搭配Writesonic高效写大纲

317浏览收藏
科技周边 · 人工智能 | 2小时前 |

沃尔沃八座移动客厅揭秘

266浏览收藏
科技周边 · 人工智能 | 2小时前 |

Gemini能解析暗物质吗

475浏览收藏
科技周边 · 人工智能 | 2小时前 |

Claude隐私设置与数据保护全解析

128浏览收藏
科技周边 · 人工智能 | 2小时前 |

多模态AI解析植物表型数据应用

135浏览收藏
科技周边 · 人工智能 | 2小时前 |

Moonshot剧本实测：分镜对白表现如何？

488浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

184次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

182次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

183次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

192次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

204次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码