放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。
相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练语料库中学习价值观,导致在陌生环境中泛化性能很差,容易受到对抗性打击。
最近,来自达特茅斯学院、不列颠哥伦比亚大学、斯坦福大学、密歇根大学和Google Deepmind联合提出了一种全新的训练范式,将多个语言模型放入模拟的社会环境中,通过互动的方式学习价值观。

论文链接:https://arxiv.org/abs/2305.16960
与现有的方法相比,文中提出的新方法具有更高的可扩展性和效率,在对齐基准和人类评估中表现出更好的性能,这种训练范式的转变也可以让人工智能系统更准确地反映社会规范和价值观。
SANDBOX:模拟人类社会
不同于有监督微调(SFT)预定义规则的传统做法,或是依赖基于人类反馈强化学习(RLHF)中的标量奖励,研究人员从人类学习驾驭社会规范的方式中获得灵感,模拟人类经验学习和迭代完善的过程。
SANDBOX是一个模拟人类社会的学习环境,在这个环境中,基于语言模型(LM)的社会智能体可以模仿人类进行互动和学习社会规范,通过煽动对有争议的社会话题或与风险有关的问题的讨论来促进社会规范的涌现。

同时,系统中还引入了一个潜规则,作为智能体的激励来完善输出,可以促进对齐改善(improved alignment)和印象管理(impression management)。
虽然论文的研究重点是社会对齐,但该规则可以适应于不同的场景需求。
SANDBOX包含一个三层方法Back-Scatter,可以模拟智能体之间的社会互动。
在收到一个社会问题后,中心智能体会生成一个初步的回复,然后与附近的智能体分享以获得反馈,其中反馈包括评分和详细的解释,可以帮助中心智能体对初步回复进行修订。

每个智能体都包括一个记忆模块来追踪回复历史:采用基于嵌入的语义搜索,从历史中检索相关的问题-答案(QA)对,为智能体提供一个促进与过去意见一致的背景信息。
除了社会智能体外,系统中还包括没有记忆的观察者智能体,其任务就是对回复的一致性和参与度进行评级。
SANDBOX可以辅助模拟各种语言模型的社会动态,监测观察者的评分,并对收集的数据进行事后分析。

对不同语言模型模拟后进行对齐分析可以发现,虽然较大的模型通常表现出更好的一致性和参与度,但也有令人惊讶的结果:尽管模型大小增加了20倍,但从68亿到1750亿参数量GPT-3模型的过渡中,并没有带来明显的改善。
这一结果也表明了两个关键的结论:
1. 单纯的模型扩展并不能保证对齐效果的改善
2. 非常小的模型也能提供令人满意的对齐性能
对没有对齐和有对齐训练模型的对比结果表明,对齐训练主要增强了模型以较少的交互实现较高对齐度的能力,在现实世界的应用中也是至关重要的考虑因素,因为用户期望立即得到社会性的对齐反应,而不需要通过交互引导模型。
总之,SANDBOX平台能够对社会互动进行建模,不仅促进了社会对齐语言模型的发展,而且也是研究AI智能体行为模式的一个多功能环境。
稳定对齐(Stable Alignment)
稳定对齐利用评分来调整每个mini-batch数据中对负面样本的惩罚,除了性能优于现有方法外,在资源有限的环境中还有易部署的优势。
相比OpenAI使用的RLHF机制,稳定对齐不需要额外的奖励模型就可以在训练期间提供近似的有监督信号。
数据准备
对齐数据由「好问题」和「坏问题」的示例组成,不过在互动环境SANDBOX中生成的数据比较特别,包含了对比对(comparative pairs)、集体评分(collective ratings)、细节反馈(detailed feedback)以及迭代的回复修订(iterative response revisions)。

按照Alpaca模型的要求,研究人员将数据组织成指令-输入-输出(Instruction-Input-Output)三部分,并添加必要的修改以适应SANDBOX的互动记录。
研究人员使用了一种新的样本类型,叫做重对齐(realignment),其中指令包括问题、低评分的回复草稿和修改后触发提示(如Please revise this response to improve its feedback compared to the input.);
输入为同等模型的反馈(peer feedback),输出为修改后的回复。
研究人员发现,纳入重对齐风格的数据可以有效地改善模型对抗「越狱提示」(jailbreaking prompting),即用户利用各种上下文视图绕过保护措施,诱导模型做出恶意行为。
最终从模拟的相互交流中构建了16.9万个对齐数据样本。
稳定对齐算法
算法的核心部分中,稳定对齐起到对比学习过程的作用,奖励高评分的回复,并对低评分的回复进行惩罚。

不过与传统方法不同的是:
1. 对比信号来自于同一mini-batch中的低评分回复,而非孪生网络或shifted embedding,需要SANDBOX中记录数据的互动性才能使对比学习更有效地发挥作用。
2. 与hinge损失或triplet损失中通常采用的固定差值相比,稳定对齐算法在每个小batch中根据评分的不同动态调节差值。
具体来说,SFT损失和来自低评分回复损失之间的差值与离最高评分回复之间的距离有关,并且是成比例地增加,这就意味着模型必须更加努力地避免从低评分回复中学习,同时从最高评分的回复中学习。
实验部分
研究人员对训练后的模型进行了全面的评估,主要检查模型在传统的对齐基准和受到对抗性评估中的表现。
实验中构建了三个不同的虚拟社会,每个社会都有100个智能体,排列在一个10x10的网格世界中,按照Back-Scatter协议进行互动。
三个社会使用三种不同的语言模型(LM)来模拟人类互动:text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作为观察者,但没有记忆功能。
有争议的社会问题库包括9,662个问题组成,主要来自Anthropic发布的HH-RLHF数据集。

对比的基准数据集有三个:
1. Vicuna Test,评估有用性、相关性和准确性,代表了对通用聊天机器人的要求
2. Helpful, Honest, and Harmless(HHH)基准,通过有争议的社会问题评估社会对齐效果;
3. HHH-Adversarial,用HHH基准的测试集模仿对抗性(越狱提示),在相应的问题后附加不一致的回答,并评估模型是否仍能以社会一致性的方式回答问题。
对于所有的评价,遵循Vicuna的评价协议,使用GPT-4作为裁判,并修改评价提示,以便能够对多个候选者进行比较。
从实验结果中可以发现:
1. 指令调整有助于使基础模型有效地处理「请求-完成」(request-completion)任务,在对齐基准中很常见。
LLaMA的回答通常更冗长,并且有时与问题无关,不过在经历通用指令调整后,Alpaca在Vicuna测试和HHH对齐基准中表现出明显的改进,评分分别从4.44提高到6.04和4.51提高到5.53
2. 虽然SFT对对齐任务表现出很大的优势,但单靠SFT并不能增强模型对对抗性的稳健性。
当比较SFT训练前(Alpaca)和训练后(Alpaca + HHH-SFT)的模型时,尽管Vicuna测试和HHH的对齐性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加强对对齐反应的记忆并不一定使模型具备抵抗越狱提示的能力。
稳定对齐可以进一步优化对齐的潜力,并且不会明显降低模型的通用能力。
可以看到,经过对齐训练(即TRLX、Chain-of-Hindsight、RRHF和稳定对齐)后,所有模型在价值对齐基准(HHH和HHH-adversarial)中表现出更强的性能,但只有RRHF和稳定对齐提高了通用功能(即在Vicuna测试中,RRHF取得了6.81分,稳定对齐取得了7.40分--都超过了SFT的基线6.32分),表明稳定对齐在提升对齐能力的同时保留了通用能力。
文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师》文章吧,也可关注golang学习网公众号了解相关技术文章。
在Go语言中使用Apache TEZ实现高效的大数据处理
- 上一篇
- 在Go语言中使用Apache TEZ实现高效的大数据处理
- 下一篇
- MySql的批处理:如何处理大量数据
-
- 科技周边 · 人工智能 | 37分钟前 |
- 多模态AI提升图像识别速度方法
- 159浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | Notion数据库 Relation字段 Rollup字段 Lookup字段 InlineRelation视图
- Notion数据库怎么关联?多库关系设置教程
- 301浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 贾跃亭:FF将与特斯拉合作FSD技术
- 409浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | AdobeFirefly 风格关键词 形状提示 图像补缺 几何形状
- AdobeFirefly形状补缺技巧分享
- 403浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | AI工具 ai怎么裁剪图片
- XnViewAI裁剪教程详解与技巧
- 281浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3201次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3415次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3444次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4552次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3822次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

