LLM | 偏好学习算法并不学习偏好排序
本篇文章给大家分享《LLM | 偏好学习算法并不学习偏好排序》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
图片
一、结论写在前面
偏好学习算法(Preference learning algorithms)如RLHF和DPO)常用于引导大型语言模型(LLMs)生成更符合人类偏好的内容。但是,文献对其内部机制的理解仍有限。论文探讨了传统观点,即偏好学习训练模型通过排序准确性来赋予更偏好的输出比不太偏好的输出更高的似然性。
论文的工作凸显了偏好学习与排序准确性之间显著但关系微弱。论文理论和实证上都证明了RLHF和DPO难以教会模型正确地对偏好和非偏好好输出进行排序,即使在训练数据集中也是如此。尽管学习目标理论上促进了高排序准确性。论文发现大多数最先进的偏好调整模型在常见偏好数据集上的排序准确率不超过60%。论文进一步推导了如果偏好调整的LLM完美优化DPO或RLHF目标,其理想化的排序准确率。
论文证明现有模型存在显著的对齐差距——即观察察觉到的与理想化的排序准确率之间的差距。论文认为这种差异源于DPO目标,该目标在经验上和理论上都不适合修正参考模型中的轻微排序错误,并推导出一个简单高效的公式来量化学习特定偏好数据点的难度。最后,论文证明当模型接近目标中使用的参考模型时,排序准确性与经验上流行的胜率指标高度相关,进一步揭示了策略内(如RLHF)和策略外(如DPO)偏好学习算法之间的差异。
二、论文的简单介绍
2.1 论文的背景
偏好学习算法最初设计用于使用者之间的成对偏好数据集来训练模型,以准确性为目标。即,模型能够精确地将偏好的输出排在不偏好的输出之上。在语言模型的情况下,排序由分配给每个候选的相似性决定。 因此,模型能够根据语义模型的情况,排序由分配给每个候选的相似性决定。
许多语言模型对齐技术早在产生具有高偏好排序准确性的模型,包括SLiC、RAFT、PRO和RRHF。最著名的是,Rafailov等人声称他们流行的直接偏好优化(DPO)算法"增加了优选响应相对于非优选响应的对数概率"。通常通过测量结果模型的生成结果相对于另一个模型的偏好程度(即胜率)来评估这些不同的目标[69]。然而,损失函数、排序准确性和胜率之间的关系尚不清楚,这让人不禁怀疑这些对齐技术在训练过程中实际上在做什么。
2.2 对齐差距
使用完美的参考模型训练以达到较低的DPO损失,将产生一个具有完美排序准确性的模型。然而,图1a显示,现实世界的参考模型在常见的偏好数据集上排序准确性较低,这促使讨论文研究更现实、不完美的参考模型。
2.2.1 现有参考模型很少具有正确排序
图1a表明,参考模型在常见的偏好数据集上很少能达到高排序准确性(除了合成指令GPT-J成对数据集),尽管许多模型可能已经根据偏好完成进行了训练。许多模型的训练数据没有详细记录,因此讨论文不清楚楚哪些偏好数据集,如果有的话,是分布内的。讨论还对几个预训练的大型语言模型(LLMs)进行了微调,以偏好完成,并观察到排序准确性并没有显著提高。基于讨论的发现,讨论转向不完美的参考模型的情况。
2.2.2 理想化的排序准确性
论文上面表明,从经验上看,参考模型在排序可能的完成时间表现出较大的准确性。然而,RLHF奖励和DPO目标被设计为确保模型学习偏好数据集,但不会偏离参考模型rRef太远,因此偏好调整模型的可能准确性可能存在限制。在这里,论文通过研究在完美优化DPO或RLHF时,当访问完美数据(即人类偏好的真实比例)时,最优策略将是什么,来正式化这一直观。
2.2.3 测量对齐差距
论文发现了一些令人惊讶的结果。首先,即使在理想条件下(即在真实偏好数据上完美优化目标函数),理想排序准确性有时仍低于100%。这种差距随着β的选择而变化,表明DPO/RLHF的极限在很大程度上取决于对πRef的依赖程度。此外,论文发现许多最先进的模型都无法达到接近理想排序准确性的排序准确性,表现出19到59个百分点的对齐差距。
表1:现有算法的理想排名准确性并不完美,但偏好调整模型显示出的排名准确性远未达到这种理想情况。论文提供了在Alpaca Farm [8]验证数据集(详见附录C.2)上,多种开放访问的偏好调整模型的长度归一化(R)和非长度归一化(R)排名准确性。同时提供了理想排名准确性(推论3.3)。由于理想排名准确性可以通过多种B值计算,论文提供了最小、中位数和最大理想排名准确性值的范围,详情见附录C.4
图片
2.3 理解DPO的排名准确性
论文现在转向训练目标来解释对齐差距。论文专注于DPO目标,因为其未能达到高排名准确性特别令人惊讶(表1)。特别是,DPO直接在线下数据集上最大化偏好-非偏好对的奖励边际,因此论文期望它在分布外的保留数据上表现良好。论文还注意到,DPO是社区中对齐LLMs的流行选择,因为它比执行RLHF成本更低。
2.3.1 DPO很少改变偏好排序
为了研究DPO训练过程中排序准确性的变化,论文在Anthropic HH-RLHF偏好数据集上训练了三种规模的模型(GPT-2、Pythia 2.8B和Llama 2-7B),每种模型都有三个随机种子,并研究了训练数据集的不同分区上的排序准确性。论文在图2中展示了训练一个Pythia 2.8B模型的结果,其他两个模型的结果放在附录D.2中。在图2中,论文根据参考模型πRef是否具有正确的排序以及当前模型πθ是否具有正确的排序,将训练数据集中随机抽取的1K个样本划分为四组。
令人惊讶的是,图2显示,尽管DPO在训练过程中持续降低损失Cppo,但它很少改变排序。除了模型忘记正确偏好排序的那组点之外,论文观察到损失持续下降,奖励边际持续增加。然而,在验证损失最低的点,不到一半的错误排序点已被翻转为正确的排序。这表明DPO目标在实际中诱导高排序准确性方面存在问题。
图片
图2:尽管不断降低损失,DPO很少颠倒对子的排名,而是主要增加了已正确排序对子的奖励边际。论文使用DPO目标训练了一个Pythia-2.8B模型,并将训练数据集分为四个子集:初始时排名正确并被翻转为(1)正确或(2)错误的例子,以及初始时排名错误并被翻转为(3)正确或(4)错误的例子。在所有三个图中,点的色调表示类别。虚线垂直线表示评估损失达到最低的训练步骤。论文还为另外两个模型提供了每种三个种子的结果,详见附录D
图片
图 3:单独的 DPO 损失并不能预测排名准确性,这是由于损失中参考模型对数比率的影响。每个点代表来自训练数据集 1K 子样本中一个独立训练示例的 DPO 损失,使用的是对应于验证损失最低检查点的模型 rg-。每个点的颜色表示 wg 是否在该示例上实现了正确的排名,即是否 o (yw .c) > To* (yw w)。虚线是定理 4.1 中的函数 f(c) = - log o(3o)。总之,tg- 正确分类的示例往往是参考模型已经正确分类的那些。
2.3.2 分析:翻转排名有多容易?
下面的结果表明,DPO 损失可以在模型排名准确性没有改善的情况下显著降低。论文的理论成果使论文能够正式识别那些在其排名中难以翻转的点。图 3 展示了多种设置下的参考模型对数比率,并强调了即使在参考模型中排名错误轻微的数据点,也需要损失降低到非常低的值才能翻转排名。论文观察到,难以学习的数据点明显比易于学习的点要长,而且易于学习的数据点通常包含的偏好注释较为明确。更广泛地说,论文的结果激发了使用更强大的 TRef 模型以及 DPO 的迭代或策略内变体的需求。
2.4 排名准确性与胜率
论文对排名准确性的研究揭示了 DPO 和 RLHF 如何与偏好数据对齐,但论文尚未将这些见解与模型在对齐过程中生成行为的变化联系起来。特别是,排名准确性是一个方便但策略外的指标,因此不如策略内指标(如胜率)那样被广泛采用(见第 2.2 节)。论文通过排名准确性和胜率的视角,探讨了大型语言模型(LLMs)的策略内(即生成性)和策略外(即分类性)行为之间的差距。由于 DPO 目标直接优化排名准确性(命题 2.6),这两个指标之间的关系直接反映了策略外训练如何影响策略内行为。
论文研究了胜率与排名准确性之间的关系,具体在两种情况下进行:(1) 在DPO训练期间,以及(2) 在一种调节TRef影响的DPO变体中。论文使用Alpaca Eval GPT4 自动标注工具对训练数据集中的500个响应进行胜率测量。
论文推测,当模型与参考模型相距较远时,向参考模型进行正则化可能会损害模型在预训练阶段主要获得生成能力。换句话说,当离线目标中使用的参考模型与当前模型相距甚远时,模型的离策略行为无法再可预测地描述在线策略生成。论文的发现证实了在拟合偏好数据与维持预训练阶段获得的生成能力之间的基本权衡[21],并与先前的观察结果一致,即添加在线策略偏好数据可以使离线学习更有效[48, 63, 23, 51]。
图片
图4:当模型权重未远离ORef时,排名准确率和胜率同步增加。 表示在检查点t时的模型权重,而0,表示模型权重转移
论文标题:Preference Learning Algorithms Do Not Learn Preference Rankings
好了,本文到此结束,带大家了解了《LLM | 偏好学习算法并不学习偏好排序》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 迈向『闭环』| PlanAgent:基于MLLM的自动驾驶闭环规划新SOTA!

- 下一篇
- 改进的检测算法:用于高分辨率光学遥感图像目标检测
-
- 科技周边 · 人工智能 | 1小时前 |
- 沃尔沃XC70亮相,SMA混动加持,年内上市
- 236浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 用豆包A/生成的表情包如何赚钱
- 191浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 小米汽车五一出行报告:超1亿公里行驶
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 | 法拉第未来 第一季度财报 FXSuperOne FX车型 汉福德工厂
- 法拉第未来Q1营收30万,亏损4380万
- 392浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 7次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 7次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 6次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 14次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 25次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览