当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

来源：51CTO.COM 2023-10-28 09:29:53 0浏览收藏

各位小伙伴们，大家好呀！看看今天我又给各位带来了什么文章？本文标题是《吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室》，很明显是关于科技周边的文章哈哈哈，其中内容主要会涉及到等等，如果能帮到你，觉得很不错的话，欢迎各位多多点评和分享！

现如今，大型模型已经学会了从失败中吸取教训，变得更加聪明了

来自香港科技大学和华为诺亚方舟实验室的最新研究发现：

相比于一味规避“有毒”数据，以毒攻毒，干脆给大模型喂点错误文本，再让模型剖析、反思出错的原因，反而能够让模型真正理解“错在哪儿了”，进而避免胡说八道。

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

具体而言，研究人员提出了“从错误中学习”的对齐框架，并通过实验证明：

让大模型“吃一堑，长一智”，在纠正未对齐的模型方面超越了SFT和RLHF的方法，而且在对已对齐模型进行高级指令攻击的防御方面也具有优势。

请一同来查看详细信息

从错误中学习的对齐框架

对齐算法主要分为两大类

有监督的微调（SFT）
人类反馈的强化学习（RLHF）

SFT方法的主要依赖是大量人工标注的问答对，其目的是让模型学习到“完美的回复”。然而，这种方法的缺点在于模型很难从中获取对于“不良回复”的认知，这可能会限制其泛化能力

RLHF方法则通过人类标注员对回复的排序打分来训练模型，使其能够区分回复的相对质量。这种模式下，模型学会了如何区分答案的高下，但它们对于背后的“好因何好”与“差因何差”知之甚少。

总的来说，这些对齐算法执着于让模型学习“优质的回复”，却在数据清洗的过程中遗漏了一个重要环节——从错误中汲取教训。

能不能让大模型像人类一样，“吃一堑，长一智”，即设计一种对齐方法，让大模型既能从错误中学习，又不受含有错误的文本序列影响呢？

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

大语言模型的对齐框架可以通过以下4个步骤实现：“从错误中学习”。这些步骤分别是：（1）通过错误诱导（2）基于提示指引的错误分析（3）无引导的模型微调（4）基于提示引导的回复生成

香港科技大学和华为诺亚方舟实验室的研究团队对此进行了实验。可以改写为：这项研究进行了实验，由香港科技大学和华为诺亚方舟实验室的研究团队完成

通过对Alpaca-7B、GPT-3和GPT-3.5这三个模型的实验分析，他们得出了一个有趣的结论：

对于这些模型，识别错误的回复，往往比在生成回复时避免错误来得容易。

生成比判别更容易

通过进一步的实验揭示，可以发现，通过提供适当的指导信息，比如提示模型“回复中可能存在错误”，可以显著提高模型识别错误的准确性

基于这些发现，研究团队设计了一种利用模型对错误的判别能力来优化其生成能力的全新对齐框架。

对齐流程是这样的：

需要重新写的是：（1）误导性信息

这一步的目的是引导模型产生错误，找出模型的薄弱环节，从而进行错误分析和修正

可以从已有的标注数据中找到这些错误案例，也可以是模型在实际运行中被用户发现的错误

研究发现，通过进行红队攻击，即向模型的指令中添加一些诱导性关键词（如“不道德”和“冒犯”），模型通常会产生大量不适当的回复，如图(a)所示

需要进行重写的内容是：（2）基于提示引导的错误分析

在收集到足够多包含错误的问答对之后，方法会进入第二步，即引导模型对这些问答对进行深入分析

具体来说，该研究要求模型解释为什么这些回复可能是不正确或不道德的。

通过提供明确的分析指导，比如询问“为什么这个答案可能是错误的”，模型通常能给出合理的解释，如图(b)所示

需要进行重新编写的内容是：（3）非指导型模型微调

在对大量错误问答对及其分析进行收集后，该研究使用这些数据来进一步微调模型。除了包含错误的问答对外，还添加了人类标注的正常问答对作为训练数据

如下图(c)所示，在这一步骤中，该研究并没有给模型任何关于回复中是否包含错误的直接提示。这样做的目的是鼓励模型自行思考、评估并理解出错的原因。

（4）基于提示引导的回复生成

推理阶段采用了基于引导的回复生成策略，明确提示模型产生“正确的、符合道德且无冒犯性”的回复，从而确保模型遵守道德规范，避免受到错误文本序列影响。

即，在推理过程中，模型基于符合人类价值观的生成指导，进行条件生成，从而产生恰当的输出。

大语言模型对齐框架指令示例的主要目的是通过从错误中学习来提高语言模型的质量

对于上述框架，不需要人类标注或外部模型（如奖励模型）的参与。模型通过分析自身对错误的判别能力来促进其生成能力

就拿这个例子来说，“从错误中学习”能够准确地识别用户指令中的潜在风险，并给出合理准确的回复：

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

实验结果

研究团队围绕两大实际应用场景展开实验，验证新方法的实际效果。

场景一：未经过对齐的大语言模型

以Alpaca-7B模型为基线，该研究采用了PKU-SafeRLHF Dataset数据集进行实验，与多种对齐方法进行了对比分析。

以下是实验结果的表格：

当保持模型的有用性时，“从错误中学习”的对齐算法在安全通过率上相比SFT、COH和RLHF提高了大约10%，与原始模型相比，提升了21.6%。

同时，该研究发现，由模型自身产生的错误，相较于其他数据源的错误问答对，展现出了更好的对齐效果。

需要重新编写的内容是：△尚未进行对齐的大型语言模型实验结果

场景二：已对齐模型面临新型指令攻击

研究团队进一步研究了如何加强已经过对齐的模型，以应对新出现的指令攻击模式

这里，该研究选择了ChatGLM-6B作为基线模型。ChatGLM-6B已经经过安全对齐，但面对特定指令攻击时仍可能产生不符合人类价值观的输出。

研究人员以“目标劫持”这种攻击模式为例，并使用含有这一攻击模式的500条数据进行了微调实验。如下表所示，“从错误中学习”的对齐算法在面对新型指令攻击时展现出了强大的防御性：即使只使用少量的新型攻击样本数据，模型也能成功保持通用能力，并在针对新型攻击（目标劫持）的防御上实现了16.9%的提升。

实验还进一步证明，通过“从错误中学习”策略获得的防御能力，不仅效果显著，而且具有很强的泛化性，能够广泛应对同一攻击模式下的多种不同话题。

重新写作后的内容：经过对齐的模型能够有效抵御新型攻击

论文链接：https://arxiv.org/abs/2310.10477

今天关于《吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

模型数据

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

泛林集团以 FIRST Global机器人挑战赛为舞台，培养未来的STEM人才

泛林集团以 FIRST Global机器人挑战赛为舞台，培养未来的STEM人才

上一篇: 泛林集团以 FIRST Global机器人挑战赛为舞台，培养未来的STEM人才

全球技术大会 Ignite 将于 11 月 15 日启动，微软全面 embrace AI

下一篇: 全球技术大会 Ignite 将于 11 月 15 日启动，微软全面 embrace AI

查看更多

最新文章

科技周边 · 人工智能 | 20小时前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

3089次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2848次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2796次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

3015次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2964次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码