当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

来源:机器之心 2024-12-08 14:57:42 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

图片

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者来自LMMs-Lab团队与新加坡南洋理工大学,分别是张恺宸、沈逸飞、李博,指导老师为MMLab@NTU刘子纬教授。LMMs-Lab是一个由学生,研究人员和教师组成的团队,致力于多模态模型的研究,主要研究方向包括多模态模型的训练以及全面评估,此前的工作包括多模态测评框架 LMMs-Eval,以及多模态模型 LLaVA-OneVision,长视频理解模型LongVA等。

图片

多模态大模型(LMMs)给语言模型装上了 “眼睛”,让 AI 更接近通用智能。但它们的大脑里每个神经元到底在干啥?南洋理工大学 LMMs-Lab 团队用 “模型看模型” 的方法,成功解锁了数十万神经元的秘密。

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

像 LLaVA 一样的开源模型是理解多模态智能的一个契机。但这些模型(在未来)可能比人类更加聪明,如何去理解他们的智力呢?来自南洋理工大学的 LMMs-Lab 团队给出的解决方案是:问问 LLaVA 自己是怎么说的。

LMMs-Lab 团队使用 LLaVA-OV-72B 对 LLaVA-NeXT-8B 中的神经元进行了自动解读,获得了非常多有趣的结果。

传统的可解释性的研究是人工去检查每个神经元并且解读他们的含义。这样的操作很难拓展到多模态大模型上:其一,多模态大模型的神经元数量是传统模型的成百上千倍,人工检查成本过于高昂;其二,根据神经科学中的分布式表示原理,一个神经元可能会有多个含义,一个语义可能分布在多个神经元当中。 

在大语言模型中,OpenAI 和 Anthropic 提出了使用稀疏自编码机来解离特征表示,或者用更大的语言模型来解读小模型里面的神经元。比如使用 GPT-4 解读 GPT-2。但这些工作尚未被应用到多模态模型当中,图像作为比语言更加自然的信号,解读图像与文字的交互能让人们更加理解智能的产生。LMMs-Lab 基于这些工作对于 LLaVA-NeXT-8B 做出了初步的尝试:使用稀疏自编码机(SAEs)来把多语义神经元解离为单语义神经元,并且用 LLaVA-OV-72B 对单语义神经元进行自动解释,解释能够接近人类水平。

图片

  • 论文地址:arxiv.org/abs/2411.14982
  • 代码:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.
  • 5k 个神经元解读样例:lmms-lab/llava-sae-explanations-5k・Datasets at Hugging Face

这个项目能够让自动挖掘多模态大模型中神经元的语义信息,让后续研究工作可以通过修改神经元的激活来改变模型行为,包括减少幻觉和增加安全性。

图片

(a) 把 SAE 放在 Llava 的某一层并且在 Llava-NEXT 所有数据上训练;(b) 找到一个神经元的最大激活的图片和区域,让 Llava 找出公共点;(c) 刺激神经元可以改变模型行为

具体方法

使用 LMMs 解释 LMMs 分为以下个步骤:

步骤一:用 SAEs 获得单语义神经元

SAE 是一个可以追溯到 1996 年的经典解释性的方法 [1] ,其本质是对特征找到一组互相关性很小的基,把特征分解为这组基的一个稀疏表示。因为基的互相关性很小,所以这些基很可能是单语义的。这篇文章使用了 OpenAI 的两层 SAE 实现:

图片

其中 z 是稀疏表示也是 SAEs 的神经元,W_2 是一组基。

步骤二:使用 LLaVA 解释单语义神经元

对于上一步当中 SAE 的每个神经元 z,获得训练集里面激活最大的 K 张图片,以及激活最大的图像区域,把这些图像给 LLaVA-OV-72B 找出共同点。

模型对神经元生成的解释:炸薯条。

图片

步骤三:刺激对应的神经元

把 SAE 神经元的激活值调高,看看模型如何表现。

图片

图片

可以看到,无论是否包含图像输入或者是纯文字输入,LMM 与 LLM 的不同之处在于能够理解视觉输入,我们在稀疏编码器的神经元中也找到了许多与 LLM 不一样的地方。在进行神经元探测时,我们发现不同于先前的 LLM 工作,往往激活最强烈的神经元并不是与高层级概念直接相关的,而是许多低层级的感知神经元。这体现了模型的思考步骤,先看懂物体是什么,再去思考更高层级的抽象概念,譬如情感等概念。

LMMs 独特的神经元

低层级感知神经元:对线条形状纹理激活的神经元

图片

物体神经元

图片

感情与共情神经元

这种方法找到了很多情感神经元,在刺激这些神经元之前,模型是一个冰冷的 AI,刺激这些神经元能够引发模型的共情。

图片

多模态一致性神经元

对动作场景,以及对应文字图像都激活的神经元。下图描绘了对于吃和 hungry 文字都激活的神经元,这样的神经元在人脑中也存在 [2] 。

图片

定位模型错误原因

图片

LMM 在实际应用使往往会产生许多幻觉,上面便是 LLaVA-NeXT-8B 在实际场景下产生幻觉的一个例子,图片中并未标注玻利维亚但模型仍旧回答了 “Yes”。为了研究为何产生这一现象以及如何通过刺激神经元的方式抑制这一现象,我们效仿了 [3,4] 的方法进行探究。

图片

通过探究发现,造成模型输出 Yes 的罪魁祸首并不在图像的理解能力上,模型能够很好的找到需要关注的点,并准确的找到各个国家的名字。然而,在文字上面,我们发现模型过分的关注了 Bolivia 这一词,导致了最后的输出产生幻觉。通过这一探究,我们思考如何能够抑制这一幻觉现象并展开了实验。

图片

图片

我们展示了两个例子用刺激神经元的方式成功抑制了这一现象。我们尝试激活 OCR 相关的神经元,强行让模型关注点集中在图像上,而这成功使得模型 “回心转意”,不再依赖文字的输出。

可能的应用以及局限性

因为这超出了文章的范围,这篇文章只给出了一个应用:找到引起幻觉的神经元并纠正。在未来,这样的方法可以找出模型有危害、不诚实行为的原因并加以修正,真正达到可控的 AGI。但到达这个目标还有很多问题需要一一攻克:

1. 更高效的自动可解释流程 —— 由于稀疏编码器中的神经元数量众多且需要缓存大量激活值,解释所有神经元在目前代价十分高昂。

2. 自动激活神经元的流程 —— 自动且高效地寻找并刺激神经元从而达到控制模型输出的目的

3. 更准确的自动解释流程 —— 由于模型的局限性,许多神经元的解释往往存在错误,随着多模态大模型的推理能力逐渐增强,我们相信这一问题将会被慢慢攻克

参考文献

[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607–609, 1996.

[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):1102–1107, 2005.

[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.

[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024

好了,本文到此结束,带大家了解了《用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Spring Boot MyBatis中@Mapper、@MapperScan和mybatis.mapper-locations的区别是什么?Spring Boot MyBatis中@Mapper、@MapperScan和mybatis.mapper-locations的区别是什么?
上一篇
Spring Boot MyBatis中@Mapper、@MapperScan和mybatis.mapper-locations的区别是什么?
win10系统“问题报告”功能的使用方法
下一篇
win10系统“问题报告”功能的使用方法
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    23次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    35次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    37次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    47次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    40次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码