放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。
相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练语料库中学习价值观,导致在陌生环境中泛化性能很差,容易受到对抗性打击。
最近,来自达特茅斯学院、不列颠哥伦比亚大学、斯坦福大学、密歇根大学和Google Deepmind联合提出了一种全新的训练范式,将多个语言模型放入模拟的社会环境中,通过互动的方式学习价值观。
论文链接:https://arxiv.org/abs/2305.16960
与现有的方法相比,文中提出的新方法具有更高的可扩展性和效率,在对齐基准和人类评估中表现出更好的性能,这种训练范式的转变也可以让人工智能系统更准确地反映社会规范和价值观。
SANDBOX:模拟人类社会
不同于有监督微调(SFT)预定义规则的传统做法,或是依赖基于人类反馈强化学习(RLHF)中的标量奖励,研究人员从人类学习驾驭社会规范的方式中获得灵感,模拟人类经验学习和迭代完善的过程。
SANDBOX是一个模拟人类社会的学习环境,在这个环境中,基于语言模型(LM)的社会智能体可以模仿人类进行互动和学习社会规范,通过煽动对有争议的社会话题或与风险有关的问题的讨论来促进社会规范的涌现。
同时,系统中还引入了一个潜规则,作为智能体的激励来完善输出,可以促进对齐改善(improved alignment)和印象管理(impression management)。
虽然论文的研究重点是社会对齐,但该规则可以适应于不同的场景需求。
SANDBOX包含一个三层方法Back-Scatter,可以模拟智能体之间的社会互动。
在收到一个社会问题后,中心智能体会生成一个初步的回复,然后与附近的智能体分享以获得反馈,其中反馈包括评分和详细的解释,可以帮助中心智能体对初步回复进行修订。
每个智能体都包括一个记忆模块来追踪回复历史:采用基于嵌入的语义搜索,从历史中检索相关的问题-答案(QA)对,为智能体提供一个促进与过去意见一致的背景信息。
除了社会智能体外,系统中还包括没有记忆的观察者智能体,其任务就是对回复的一致性和参与度进行评级。
SANDBOX可以辅助模拟各种语言模型的社会动态,监测观察者的评分,并对收集的数据进行事后分析。
对不同语言模型模拟后进行对齐分析可以发现,虽然较大的模型通常表现出更好的一致性和参与度,但也有令人惊讶的结果:尽管模型大小增加了20倍,但从68亿到1750亿参数量GPT-3模型的过渡中,并没有带来明显的改善。
这一结果也表明了两个关键的结论:
1. 单纯的模型扩展并不能保证对齐效果的改善
2. 非常小的模型也能提供令人满意的对齐性能
对没有对齐和有对齐训练模型的对比结果表明,对齐训练主要增强了模型以较少的交互实现较高对齐度的能力,在现实世界的应用中也是至关重要的考虑因素,因为用户期望立即得到社会性的对齐反应,而不需要通过交互引导模型。
总之,SANDBOX平台能够对社会互动进行建模,不仅促进了社会对齐语言模型的发展,而且也是研究AI智能体行为模式的一个多功能环境。
稳定对齐(Stable Alignment)
稳定对齐利用评分来调整每个mini-batch数据中对负面样本的惩罚,除了性能优于现有方法外,在资源有限的环境中还有易部署的优势。
相比OpenAI使用的RLHF机制,稳定对齐不需要额外的奖励模型就可以在训练期间提供近似的有监督信号。
数据准备
对齐数据由「好问题」和「坏问题」的示例组成,不过在互动环境SANDBOX中生成的数据比较特别,包含了对比对(comparative pairs)、集体评分(collective ratings)、细节反馈(detailed feedback)以及迭代的回复修订(iterative response revisions)。
按照Alpaca模型的要求,研究人员将数据组织成指令-输入-输出(Instruction-Input-Output)三部分,并添加必要的修改以适应SANDBOX的互动记录。
研究人员使用了一种新的样本类型,叫做重对齐(realignment),其中指令包括问题、低评分的回复草稿和修改后触发提示(如Please revise this response to improve its feedback compared to the input.);
输入为同等模型的反馈(peer feedback),输出为修改后的回复。
研究人员发现,纳入重对齐风格的数据可以有效地改善模型对抗「越狱提示」(jailbreaking prompting),即用户利用各种上下文视图绕过保护措施,诱导模型做出恶意行为。
最终从模拟的相互交流中构建了16.9万个对齐数据样本。
稳定对齐算法
算法的核心部分中,稳定对齐起到对比学习过程的作用,奖励高评分的回复,并对低评分的回复进行惩罚。
不过与传统方法不同的是:
1. 对比信号来自于同一mini-batch中的低评分回复,而非孪生网络或shifted embedding,需要SANDBOX中记录数据的互动性才能使对比学习更有效地发挥作用。
2. 与hinge损失或triplet损失中通常采用的固定差值相比,稳定对齐算法在每个小batch中根据评分的不同动态调节差值。
具体来说,SFT损失和来自低评分回复损失之间的差值与离最高评分回复之间的距离有关,并且是成比例地增加,这就意味着模型必须更加努力地避免从低评分回复中学习,同时从最高评分的回复中学习。
实验部分
研究人员对训练后的模型进行了全面的评估,主要检查模型在传统的对齐基准和受到对抗性评估中的表现。
实验中构建了三个不同的虚拟社会,每个社会都有100个智能体,排列在一个10x10的网格世界中,按照Back-Scatter协议进行互动。
三个社会使用三种不同的语言模型(LM)来模拟人类互动:text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作为观察者,但没有记忆功能。
有争议的社会问题库包括9,662个问题组成,主要来自Anthropic发布的HH-RLHF数据集。
对比的基准数据集有三个:
1. Vicuna Test,评估有用性、相关性和准确性,代表了对通用聊天机器人的要求
2. Helpful, Honest, and Harmless(HHH)基准,通过有争议的社会问题评估社会对齐效果;
3. HHH-Adversarial,用HHH基准的测试集模仿对抗性(越狱提示),在相应的问题后附加不一致的回答,并评估模型是否仍能以社会一致性的方式回答问题。
对于所有的评价,遵循Vicuna的评价协议,使用GPT-4作为裁判,并修改评价提示,以便能够对多个候选者进行比较。
从实验结果中可以发现:
1. 指令调整有助于使基础模型有效地处理「请求-完成」(request-completion)任务,在对齐基准中很常见。
LLaMA的回答通常更冗长,并且有时与问题无关,不过在经历通用指令调整后,Alpaca在Vicuna测试和HHH对齐基准中表现出明显的改进,评分分别从4.44提高到6.04和4.51提高到5.53
2. 虽然SFT对对齐任务表现出很大的优势,但单靠SFT并不能增强模型对对抗性的稳健性。
当比较SFT训练前(Alpaca)和训练后(Alpaca + HHH-SFT)的模型时,尽管Vicuna测试和HHH的对齐性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加强对对齐反应的记忆并不一定使模型具备抵抗越狱提示的能力。
稳定对齐可以进一步优化对齐的潜力,并且不会明显降低模型的通用能力。
可以看到,经过对齐训练(即TRLX、Chain-of-Hindsight、RRHF和稳定对齐)后,所有模型在价值对齐基准(HHH和HHH-adversarial)中表现出更强的性能,但只有RRHF和稳定对齐提高了通用功能(即在Vicuna测试中,RRHF取得了6.81分,稳定对齐取得了7.40分--都超过了SFT的基线6.32分),表明稳定对齐在提升对齐能力的同时保留了通用能力。
文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 在Go语言中使用Apache TEZ实现高效的大数据处理

- 下一篇
- MySql的批处理:如何处理大量数据
-
- 科技周边 · 人工智能 | 12分钟前 | 预防措施
- 豆包AI导出失败?常见错误代码解析及解决方案
- 285浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 东风猛士M817亮相上海车展最“华”越野车
- 292浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 岚图FREE+上海车展亮相,搭载华为ADS4.0,6月预售
- 501浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 用豆包A/表情包变现攻略及方法
- 196浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- LongPortMCP—长桥集团首推券商新品
- 121浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 12次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 23次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 26次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 27次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览