当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本

耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本

来源:机器之心 2025-03-05 09:01:11 0浏览 收藏

耶鲁、剑桥等大学的研究人员开发出MindLLM模型,实现了将功能性磁共振成像(fMRI)信号直接解码为文本的突破。该模型克服了现有方法预测性能差、任务种类有限及跨受试者泛化能力弱等问题,通过主题无关的fMRI编码器和预训练大型语言模型(LLM)的结合,以及创新的“大脑指令调整”(BIT)方法,显著提升了fMRI到文本解码的准确性和通用性。MindLLM在基准测试中表现优于现有技术,在不同下游任务、未知主题泛化和新任务适应性方面均取得了显著改进,为脑机接口和神经科学研究带来了新的可能性,例如帮助语言障碍者恢复沟通能力,并实现对数字设备的更直观控制。

图片

编辑 | 萝卜皮

将功能性磁共振成像 (fMRI) 信号解码为文本一直是神经科学界面临的一项重大挑战,它有望推动脑机接口的发展,并加深对大脑机制的了解。然而,现有的方法往往存在预测性能不佳、任务种类有限以及跨受试者泛化能力较差等问题。

针对这一问题,耶鲁大学(Yale University)、达特茅斯学院(Dartmouth College)和剑桥大学(University of Cambridge)的研究人员提出了 MindLLM,一种专为主题无关且用途广泛的 fMRI 到文本解码而设计的模型。

此外,研究人员提出了一种新方法——大脑指令调整 (BIT),可增强模型从 fMRI 信号中捕获不同语义表示的能力,从而促进更通用的解码。

在全面的 fMRI 到文本基准上的评估中, MindLLM 优于基线,下游任务提高了 12.0%,未知主题泛化提高了 16.4%,新任务适应提高了 25.0%。此外,MindLLM 中的注意力模式为其决策过程提供了可解释的见解。

该研究以「MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding」为题,于 2025 年 2 月 18 日发布在 arXiv 预印平台。

图片

解码人类大脑活动(fMRI)为文本在神经科学领域引起了广泛关注。这一技术不仅为认知、行为和意识研究提供了新视角,还具有重要的社会应用价值。

例如,它可以帮助语言障碍者恢复沟通能力,使他们能够轻松表达思想;同时,它还能实现健康人群对数字设备(如具身 AI 或假肢)的神经控制,使操作更加直观和精确。

然而,该技术仍面临重大挑战:一是需要针对不同应用场景开发多功能解码模型,现有方法如 UMBRAE 虽能映射 fMRI 数据到刺激图像,但无法处理更广泛的任务(如记忆检索);二是缺乏统一且不依赖个体的解码架构,当前方法依赖预处理选择响应体素,导致输入维度不一致和空间信息丢失,影响性能。

研究人员提出了 MindLLM,一种用于 fMRI 到文本解码的主题无关且通用的模型。该方法包括一个主题无关的 fMRI 编码器和一个现成的 LLM。

图片

图示:MindLLM 概述。(来源:论文)

主题无关的 fMRI 编码器将神经科学信息注意层与可学习查询相结合,通过利用体素的空间信息和神经科学先验来实现动态特征提取,从而显著提高预测准确性。值和键的设计将体素的功能信息(在个体之间基本一致)与其 fMRI 值分开,从而使模型能够受益于跨主体共享的先验,并增强对新主体的概括性。

为了应对多功能解码的挑战,研究人员提出了脑指令调整(BIT)。BIT 使用以图像为中介的多样化数据集来训练模型,涵盖旨在捕获 fMRI 数据中编码的语义信息的不同方面的任务,包括感知和场景理解、记忆和知识检索、语言和符号处理以及复杂推理。

图片

图示:我们的模型与之前的统一模型的比较。(来源:论文)

研究人员在综合基准上评估了 MindLLM。结果表明,它的表现优于基线,在各种下游任务中平均提高了 12.0%,在未见过的主题上的泛化提高了 16.4%。

MindLLM 能够有效地适应新任务,在实际应用中表现出很高的可定制性和灵活性。此外,对注意力权重的分析为该团队 fMRI 编码器的工作机制提供了宝贵的见解。

论文链接:https://arxiv.org/abs/2502.15786

相关报道:https://medicalxpress.com/news/2025-02-brain-imaging-text-mindllm.html

今天关于《耶鲁、剑桥等开发MindLLM,将脑成像直接转换为文本》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于人工智能,大脑,科学,理论,神经科学的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Emotion维护者抛弃CSS-in-JS:中文解读及原因分析Emotion维护者抛弃CSS-in-JS:中文解读及原因分析
上一篇
Emotion维护者抛弃CSS-in-JS:中文解读及原因分析
Jeesite微服务部署教程:超详细步骤及常见问题解答
下一篇
Jeesite微服务部署教程:超详细步骤及常见问题解答
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    40次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码