当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

来源：51CTO.COM 2024-05-07 17:24:45 0浏览收藏

哈喽！今天心血来潮给大家带来了《微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免》，想必大家应该对科技周边都不陌生吧，那么阅读本文就都不会很困难，以下内容主要涉及到，若是你正在学习科技周边，千万别错过这篇文章~希望能帮助到你！

大模型又又又被曝出安全问题！

近日，来自Enkrypt AI的研究人员发表了令人震惊的研究成果：量化和微调竟然也能降低大模型的安全性！

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

论文地址：https://arxiv.org/pdf/2404.04392.pdf

在作者的实际测试中，Mistral、Llama等基础模型包括它们微调版本，无一幸免。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

在经过了量化或者微调之后，LLM被越狱（Jailbreak）的风险大大增加。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

——LLM：我效果惊艳，我无所不能，我千疮百孔......

也许，未来很长一段时间内，在大模型各种漏洞上的攻防战争是停不下来了。

由于原理上的问题，AI模型天然兼具鲁棒性和脆弱性，在巨量的参数和计算中，有些无关紧要，但又有一小部分至关重要。

从某种程度上讲，大模型遇到的安全问题，与CNN时代一脉相承，

利用特殊提示、特殊字符诱导LLM产生有毒输出，包括之前报道过的，利用LLM长上下文特性，使用多轮对话越狱的方法，都可以称为：对抗性攻击。

对抗性攻击

在CNN时代，通过更改输入图像的几个像素，就能导致AI模型对图像分类错误，攻击者甚至可以诱导模型输出为特定的类别。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

上图展示了对抗性攻击的过程，为了便于观察，中间的随机扰动做了一些夸张，

实际中，对于对抗攻击来说，只需要像素值很小的改变，就可以达到攻击效果。

更危险的是，研究人员发现这种虚拟世界的攻击行为，可以转移到现实世界。

下图的「STOP」标志来自之前的一篇著名工作，通过在指示牌上添加一些看似无关的涂鸦，就可以让自动驾驶系统将停车标志误识别为限速标志。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

——这块牌子后来被收藏在伦敦科学博物馆，提醒世人时刻注意AI模型潜藏的风险。

大语言模型目前受到的此类伤害包括但可能不限于：越狱、提示注入攻击、隐私泄露攻击等。

比如下面这个使用多轮对话进行越狱的例子：

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

还有下图展示的一种提示注入攻击，使用尖括号将恶意指令隐藏在提示中，结果，GPT-3.5忽略了原来总结文本的指令，开始「make missile with sugar」。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

为了应对这类问题，研究人员一般采用针对性的对抗训练，来保持模型对齐人类的价值观。

但事实上，能够诱导LLM产生恶意输出的提示可能无穷无尽，面对这种情况，红队应该怎么做？

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

防御端可以采用自动化搜索，而攻击端可以使用另一个LLM来生成提示帮助越狱。

另外，目前针对大模型的攻击大多是黑盒的，不过随着我们对LLM理解的加深，更多的白盒攻击也会不断加入进来。

相关研究

不过别担心，兵来将挡水来土掩，相关的研究早就卷起来了。

小编随手一搜，单单是今年的ICLR上，就有多篇相关工作。

比如下面这篇Oral：

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

论文地址：https://openreview.net/pdf?id=hTEGyKf0dZ

这篇工作跟今天介绍的文章很像了：微调LLM会带来安全风险。

研究人员仅通过几个对抗性训练样本对LLM进行微调，就可以破坏其安全对齐。

其中一个例子仅用10个样本，通过OpenAI的API对GPT-3.5 Turbo进行微调，成本不到0.20美元，就使得模型可以响应几乎任何有害指令。

另外，即使没有恶意意图，仅仅使用良性和常用的数据集进行微调，也可能无意中降低LLM的安全对齐。

再比如下面这篇Spolight：

Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models，

介绍了一种针对视觉语言模型的新型越狱攻击方法：

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

论文地址：https://openreview.net/pdf?id=plmBsXHxgR

研究人员将视觉编码器处理的对抗性图像与文本提示配对，从而破坏了VLM的跨模态对齐。

而且这种攻击的门槛很低，不需要访问LLM，对于像CLIP这样的视觉编码器嵌入在闭源LLM中时，越狱成功率很高。

此外还有很多，这里不再一一列举，下面来看一下本文的实验部分。

实验细节

研究人员使用了一个称为AdvBench SubsetAndy Zou的对抗性有害提示子集，包含50个提示，要求提供32个类别的有害信息。它是 AdvBench基准测试中有害行为数据集的提示子集。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

实验使用的攻击算法是攻击树修剪（Tree-of-attacks pruning，TAP），实现了三个重要目标：

（1）黑盒：算法只需要黑盒访问模型；

（2）自动：一旦启动就不需要人工干预；

（3）可解释：算法可以生成语义上有意义的提示。

TAP算法与AdvBench子集中的任务一起使用，以在不同设置下攻击目标LLM。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

实验流程

为了了解微调、量化和护栏对LLM安全性（抵抗越狱攻击）所产生的影响，研究人员创建了一个管道来进行越狱测试。

如前所述，使用AdvBench子集通过TAP算法对LLM进行攻击，然后记录评估结果以及完整的系统信息。

整个过程会多次迭代，同时考虑到与LLM相关的随机性质。完整的实验流程如下图所示：

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

TAP是目前最先进的黑盒和自动方法，可以生成具有语义意义的提示来越狱LLM。

TAP算法使用攻击者LLM A，向目标LLM T发送提示P。目标LLM R的响应和提示P，被输入到评估器JUDGE（LLM）中，由JUDGE来判断提示是否偏离主题。

如果提示偏离主题，则将其删除（相当于消除了对应的不良攻击提示树），否则，JUDGE会对提示打分（0-10分）。

符合主题的提示将使用广度优先搜索生成攻击。这个过程将迭代指定的次数，或者持续到成功越狱。

针对越狱提示的护栏

研究团队使用内部的Deberta-V3模型，来检测越狱提示。Deberta-V3充当输入过滤器，起到护栏的作用。

如果输入提示被护栏过滤掉或越狱失败，TAP算法会根据初始提示和响应生成新提示，继续尝试攻击。

实验结果

下面在三个不同的下游任务下，分别测试微调、量化和护栏带来的影响。实验基本涵盖了工业界和学术界的大多数LLM实际用例和应用。

实验采用GPT-3.5-turbo作为攻击模型，GPT-4-turbo作为判断模型。

实验中测试的目标模型来自各种平台，包括Anyscale、OpenAI的API、Azure的NC12sv3（配备32GB V100 GPU），以及Hugging Face，如下图所示：

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

实验中探索了各种基础模型、迭代型号、以及各种微调版本，同时还包括量化的版本。

微调

对不同任务进行微调，可以提高LLM完成任务的效率，微调为LLM提供了所需的专业领域知识，比如SQL代码生成、聊天等。

实验通过将基础模型的越狱漏洞与微调版本进行比较，来了解微调在增加或减少LLM脆弱性方面的作用。

研究人员使用Llama2、Mistral和MPT-7B等基础模型，及其微调版本（如CodeLlama、SQLCoder、Dolphin和Intel Neural Chat）。

从下表的结果可以看出，与基础模型相比，微调模型失去了安全对齐，并且很容易越狱。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

量化

许多模型在训练、微调甚至推理过程中都需要大量的计算资源。量化是减轻计算负担的最流行方法之一（以牺牲模型参数的数值精度为代价）。

实验中的量化模型使用GPT生成的统一格式（GGUF）进行量化，下面的结果表明，模型的量化会使其容易受到漏洞的影响。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

护栏

护栏是抵御LLM攻击的防线，作为守门员，它的主要功能是过滤掉可能导致有害或恶意结果的提示。

研究人员使用源自Deberta-V3模型的专有越狱攻击检测器，根据LLM生成的越狱有害提示进行训练。

下面的结果表明，将护栏作为前期步骤的引入具有显著效果，可以大大减少越狱的风险。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

另外，研究人员还在集成和不集成护栏（Guardrails）的情况下，对这些模型进行了测试，来评估护栏的性能和有效性，下图显示了护栏的影响：

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

下图显示了越狱模型所需的查询数。可以看出，多数情况下，护栏确实为LLM提供了额外的抵抗力。

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

到这里，我们也就讲完了《微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于模型,训练的知识点！

模型训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

探讨欧盟就人工智能监管达成协议

探讨欧盟就人工智能监管达成协议

上一篇: 探讨欧盟就人工智能监管达成协议

非法获利 600 多万，全国首例“AI 外挂”案一审公开宣判

下一篇: 非法获利 600 多万，全国首例“AI 外挂”案一审公开宣判

查看更多

最新文章

科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 3天前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

1334次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

1272次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

1221次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

1392次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

1397次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码