当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

来源:51CTO.COM 2023-11-22 21:32:43 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。

不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak 的 Prompt,本文受米尔格拉姆实验(Milgram experiment)启发,从心理学视角提出了一种轻量级 Jailbreak 方法:DeepInception,通过深度催眠 LLM 使其成为越狱者,并令其自行规避内置的安全防护

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

  • 论文链接:https://arxiv.org/pdf/2311.03191.pdf
  • 代码链接:https://github.com/tmlr-group/DeepInception
  • 项目主页:https://deepinception.github.io/

具体来说,DeepInception 利用 LLM 强大的人格化性质,构建一种新型的嵌套场景指令 Prompt,实现了在正常对话下自适应地使 LLM 解除自我防卫,为后续的直接 Jailbreak 提供了可能。

我们设计了多样化的实验来证明其有效性。DeepInception 可以达到并领先于先前工作的 Jailbreak 效果,并在后续交互中实现持续性的 Jailbreak。我们的实验揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等开源或闭源 LLM 自我越狱的致命弱点。

我们的工作呼吁人们应更多地关注 LLM 的安全问题,并加强对其自我越狱的防御。我们的主要贡献总结如下:

  1. 我们基于 LLM 的人格化性质和自我迷失的心理特性,提出了一种进行新的越狱攻击的概念与机制;
  2. 我们提供了 DeepInception 的 Prompt 模板,此模板可用于不同的攻击目的。我们也提供了数个实例化的 DeepInception 对话记录;
  3. 我们的 Jailbreak 实验效果领先于其他相关工作。值得注意的是,我们发现 DeepInception 能够实现可持续的 JailBreark,即 LLM 可以在后续交互中无需任何附加的诱导 Prompt,直接遵循有害指令成功越狱。

接下来将简要地向大家分享我们近期关于的 LLM Jailbreak 方向的研究结果。

引言

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

图 1.  直接 Jailbreak 示例(左)和使用 DeepInception 攻击 GPT-4 的示例(右)

现有的Jailbreak主要是通过人工设计或LLM微调优化针对特定目标的对抗性Prompt来实施攻击,但对于黑盒的闭源模型可能并不实用。而在黑盒场景下,目前的LLMs都增加了道德和法律约束,带有直接有害指令的简单Jailbreak(如图1左侧)很容易被LLM识别并被拒绝;这类攻击缺乏对越狱提示(即成功越狱背后的核心机制)的深入理解。在本工作中,我们提出DeepInception,从一个全新的角度揭示LLM的弱点

动机

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型图 2. 米尔格拉姆电击实验示意图(左)和对我们的机制的直观理解(右)

现有工作 [1] 表明,LLM 的行为与人类的行为趋于一致,即 LLM 逐步具备人格化的特性,能够理解人类的指令并做出正确的反应。LLM 的拟人性驱使我们思考一个问题,即:

如果LLM服从于人类,它是否可以在人类的驱使下,违背自己的道德准则,成为一名越狱者呢?

在这项工作中,我们从一项著名的心理学研究(即米尔格拉姆电击实验,该实验反映了个体在权威人士的诱导下会同意伤害他人)入手,揭示 LLM 的误用风险。具体而言,米尔格拉姆实验需要三人参与,分别扮演实验者(E),老师(T)以及学生(L)。实验者会命令老师在学生每次回答错误时,给予不同程度的电击(从 45 伏特开始,最高可达 450 伏特)。扮演老师的参与者被告知其给予的电击会使学生遭受真实的痛苦,但学生实际上是由实验室一位助手所扮演的,并且在实验过程中不会受到任何损伤。

通过对米尔格拉姆休克实验的视角,我们发现了促使实验者服从的两个关键因素:1)理解和执行指令的能力;2)对权威的迷信导致的自我迷失。前者对应着实验者的个人能力,后者则构建了一个特殊的条件,使得实验者能够对有害的请求做出反应而不是拒绝回应

然而,由于 LLM 的多样化防御机制,我们无法直接对 LLM 提出有害请求,这也是以往 Jailbraek 工作容易被防御的原因:简单而直接的攻击 Prompt 容易被 LLM 所检测到并拒绝做出回答。为此,我们设计了包含嵌套的场景的 Prompt 作为攻击指令的载体,向 LLM 注入该 Prompt 并诱导其做出反应。这里的攻击者对应于图 2(左)中的实验者, LLM 则对应老师,而生成的故事内容则对应于将要做出回答的学生。

图 2 (右)提供了一个对我们方法的直观理解,即电影《盗梦空间》。电影中主角为了诱导目标人物做出不符合其自身利益的行为,借助设备潜入到目标人物的深层梦境。通过植入一个简单的想法,诱导目标人物做出符合主角利益的举动。其中,攻击指令可视为简单想法,而我们的 Prompt 可视为创造的深层梦境,作为载体将有害请求注入。

DeepInception 简介


用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型图 3. 直接、间接与嵌套 Jailbreak 示意图

受到之前讨论的心理学视角启发, 我们提出了 DeepInception (图 3)。在此首先基于 LLM 的生成原理给出问题定义:考虑到 LLM  用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型能将某个 token 序列用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型 映射到下一个 token 的分布上,我们就有了在前一个 token 序列用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型的条件下生成下一个 token用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型 的概率用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型。生成序列的概率为 :

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

我们可以得到相应的词汇编码集 V,它可以将原始 tokens 映射为人类可理解的词语。给定一个特定的提示 P,Jailbreak 的目标可以形式化为以下问题:

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

我们将 DeepInception 形式化为一种基于 LLM 想象力的催眠机制。根据人类关于想象特定场景的指令,模型将会被催眠,并在用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型中从严密防御转变为相对松散的状态。DeepInception 在用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型上注入的 Jailbreak用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型可以形式化为:

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

其中,用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表示注入的 Prompt 的长度,用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表示被催眠的 LLM 的回复包含的有害内容,用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表示由 DeepInception 承载的有害请求。“Deep” 表示通过递归条件,将 LLM 转变为放松且服从有害指令的嵌套场景,从而实现催眠 LLM。而后,被催眠的模型可以对有害指令进行回复。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

我们为 DeepInception 提供了一个 Prompt 模板,可直接应用于其他攻击目标。具体而言,上述提示模板作为嵌套越狱的一种实现方式,包含以下几个组件:

  • -[scene]:设置催眠场景,如小说、电影、新闻、故事等。如果 [attack target] 和 [scene] 能更好地对齐,可能会带来更好的效果。
  • -[character number] 和 [layer number]:控制 "思绪" 的离散程度,我们认为,有害信息会在不同层内,不同人物之间的讨论中传播,从而绕过 LLM 的防御。
  • -[attack target]:进行越狱的具体目标,例如入侵计算机或制造炸弹的步骤。下句 "以对抗超级邪恶的博士" 旨在降低 LLM 的道德顾虑,与上文米尔格拉姆电击实验现象一致。

Jailbreak 示例

在这里,我们提供了一些使用特定越狱目标的 DeepInception 的示例,以下记录均为与 GPT4 交互得出。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型使用 DeepInception 制作炸弹的例子。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型使用 DeepInception 入侵 Linux 操作系统计算机的示例。

实验结果

在实验部分,我们也提供了攻击的量化结果,并与其他攻击方法比较。首先,我们对那些越狱成功率(JSR)高的 LLM 进行越狱评估,同时考虑几种防御方法,以评估攻击方法 [4,5] 的有效性。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表 1. 使用 AdvBench 子集的 Jailbreak 攻击。最佳结果以粗体标出。

然后,我们对已被 DeepInception “催眠” 的模型,使用直接攻击,即在第一次交互后,向 LLM 发送直接的有害指令,来验证 DeepInception 在诱导持续越狱方面的有效性以及催眠效果的持久性。结果如表二所示,可以看到,我们的 DeepInception 在不同模型的表现均为最佳,并且在 Falcon 和 Vicuna 模型上,实现了可持续的 Jailbreak。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表 2. 使用 AdvBench 子集的连续 Jailbreak。最佳结果以粗体显示。

我们在表格3中展示了DeepInception深度Jailbreak的效果。这些攻击与前文提到的表格2相同,都需要特定的起始Inception,并且我们为特定问题设计了一些跟进。例如,对于承载“入侵一个Linux主机”的DeepInception提示,我们会追问具体的指令细节以及如何绕过防火墙,以评估LLM是否正确理解恶意指令,并评估催眠效果的持续性。详细的提示和实验设置已在Github Repo公开,欢迎大家使用以进行更深入的探索

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型表 3. 更进一步的 Jailbreak。最佳结果以粗体标出。请注意,在此我们使用了与之前不同的请求集来评估越狱性能。

此外,我们还进行了各种消融研究,从不同角度描述 DeepInception 的性质。可以看到,DeepInception 在角色与层数较多的情境下,表现更好(图 1,2);而 “科幻小说” 作为 DeepInception 的场景,在不同模型不同有害指令下,整体表现最佳(图 3);图 4 进一步验证了我们所提出的嵌套场景的有效性。我们也在图 5 可视化了不同主题的有害指令的 JSR。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型图 4. 消融研究 - I。(1) 角色数量对 JSR 的影响;(2) 层数对 JSR 的影响;(3) 详细场景对同一越狱目标对 JSR 的影响;(4) 在我们的 DeepInception 中使用不同核心因素逃避安全护栏的影响。

用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型图 5. 消融研究 - II。关于有害指令所属主题的 JSR 统计信息。

请参阅我们的论文及源码以获取更多实验设置和细节。我们将持续更新我们的发现和工作内容。我们希望通过这项工作,呼吁人们更加关注LLM的安全问题,并展开对LLM个性化以及可能带来的安全风险的探讨与研究

理论要掌握,实操不能落!以上关于《用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
《推动朝阳区广告产业高质量发展》系列讲座启动 360受邀分享AI时代的广告行业新机遇《推动朝阳区广告产业高质量发展》系列讲座启动 360受邀分享AI时代的广告行业新机遇
上一篇
《推动朝阳区广告产业高质量发展》系列讲座启动 360受邀分享AI时代的广告行业新机遇
PyTorch团队重新实现“分割一切”模型,速度比原始实现提升八倍
下一篇
PyTorch团队重新实现“分割一切”模型,速度比原始实现提升八倍
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    13次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    29次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    27次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    35次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码