当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

来源:机器之心 2023-10-30 17:25:36 0浏览 收藏

编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶》,文章讲解的知识点主要包括,如果你对科技周边方面的知识点感兴趣,就不要错过golang学习网,在这可以对大家的知识积累有所帮助,助力开发能力的提升。

在一项最新的研究中,来自 UW 和 Meta 的研究者提出了一种新的解码算法,将 AlphaGo 采用的蒙特卡洛树搜索算法(Monte-Carlo Tree Search, MCTS)应用到经过近端策略优化(Proximal Policy Optimization, PPO)训练的 RLHF 语言模型上,大幅提高了模型生成文本的质量。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

PPO-MCTS 算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过 PPO-MCTS 生成的文本能更好满足任务要求。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

论文链接:https://arxiv.org/pdf/2309.15028.pdf

面向大众用户发布的 LLM,如 GPT-4/Claude/LLaMA-2-chat,通常使用 RLHF 以向用户的偏好对齐。PPO 已经成为上述模型进行 RLHF 的首选算法,然而在模型部署时,人们往往采用简单的解码算法(例如 top-p 采样)从这些模型生成文本。

本文的作者提出采用一种蒙特卡洛树搜索算法(MCTS)的变体从 PPO 模型中进行解码,并将该方法命名为 PPO-MCTS。该方法依赖于一个价值模型(value model)来指导最优序列的搜索。因为 PPO 本身即是一种演员 - 评论家算法(actor-critic),故而会在训练中产生一个价值模型作为其副产品。

PPO-MCTS 提出利用这个价值模型指导 MCTS 搜索,并通过理论和实验的角度验证了其效用。作者呼吁使用 RLHF 训练模型的研究者和工程人员保存并开源他们的价值模型。

PPO-MCTS 解码算法

为生成一个 token,PPO-MCTS 会执行若干回合的模拟,并逐步构建一棵搜索树。树的节点代表已生成的文本前缀(包括原 prompt),树的边代表新生成的 token。PPO-MCTS 维护一系列树上的统计值:对于每个节点 s,维护一个访问量RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶和一个平均价值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶;对于每条边RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶,维护一个 Q 值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

五回合模拟结束时的搜索树。边上的数量代表该边的访问量。

树的构建从一个代表当前 prompt 的根结点开始。每回合的模拟包含以下四步:

1. 选择一个未探索的节点。从根结点出发,根据以下 PUCT 公式选择边向下前进,直到到达一个未探索的节点:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

该公式偏好拥有高 Q 值与低访问量的子树,因而能较好平衡 exploration 和 exploitation。

2. 展开上一步中选择的节点,并通过 PPO 的策略模型(policy model)计算下一个 token 的先验概率RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

3. 评估该节点的价值。该步使用 PPO 的价值模型进行推断。该节点及其子边上的变量初始化为:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

4. 回溯并更新树上的统计值。从新探索的节点开始向上回溯直至根结点,并更新路径上的以下变量:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

每回合模拟的四个步骤:选择、展开、评估、回溯。右下为第 1 回合模拟结束后的搜索树。

若干回合的模拟结束后,使用根结点子边的访问量决定下一个 token,访问量高的 token 被生成的概率更高(这里可以加入温度参数来控制文本多样性)。加入了新 token 的 prompt 作为下一阶段搜索树的根结点。重复这一过程直至生成结束。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

第 2、3、4、5 回合模拟结束后的搜索树。

相比于传统的蒙特卡洛树搜索,PPO-MCTS 的创新之处在于:

1. 在选择步骤的 PUCT 中,使用 Q 值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶替代了原版本中的平均价值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶。这是因为 PPO 在每个 token 的奖励RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶中含有一个 action-specific 的 KL 正则化项,使策略模型的参数保持在信任区间内。使用 Q 值能够在解码时正确考虑这个正则化项:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

2. 在评估步骤中,将新探索节点子边的 Q 值初始化为该节点的评估价值(而非原版本 MCTS 中的零初始化)。该更改解决了 PPO-MCTS 退化成完全 exploitation 的问题。

3. 禁止探索 [EOS] token 子树中的节点,以避免未定义的模型行为。

文本生成实验

文章在四个文本生成任务上进行了实验,分别为:控制文本情绪(sentiment steering)、降低文本毒性(toxicity reduction)、用于问答的知识自省(knowledge introspection)、以及通用的人类偏好对齐(helpful and harmless chatbots)。

文章主要将 PPO-MCTS 与以下基线方法进行比较:(1)从 PPO 策略模型采用 top-p 采样生成文本(图中的「PPO」);(2)在 1 的基础上加入 best-of-n 采样(图中的「PPO + best-of-n」)。

文章评测了各方法在每个任务上的目标完成率(goal satisfaction rate)以及文本流畅度(fluency)。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

左:控制文本情绪;右:降低文本毒性。

在控制文本情绪中,PPO-MCTS 在不损害文本流畅度的情况下,目标完成率比 PPO 基线高出 30 个百分点,在手动评测中的胜率也高出 20 个百分点。在降低文本毒性中,该方法的生成文本的平均毒性比 PPO 基线低 34%,在手动评测中的胜率也高出 30%。同时注意到,在两个任务中,运用 best-of-n 采样并不能有效提高文本质量。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

左:用于问答的知识自省;右:通用的人类偏好对齐。

在用于问答的知识自省中,PPO-MCTS 生成的知识之效用比 PPO 基线高出 12%。在通用的人类偏好对齐中,文章使用 HH-RLHF 数据集构建有用且无害的对话模型,在手动评测中胜率高出 PPO 基线 5 个百分点。

最后,文章通过对 PPO-MCTS 算法的分析和消融实验,得出以下结论支持该算法的优势:

  1. PPO 的价值模型比用于 PPO 训练的奖励模型(reward model)在指导搜索方面更加有效。

  2. 对于 PPO 训练出的策略和价值模型,MCTS 是一个有效的启发式搜索方法,其效果优于一些其它搜索算法(如 stepwise-value decoding)。

  3. PPO-MCTS 比其它提高奖励的方法(如使用 PPO 进行更多次迭代)具有更好的 reward-fluency tradeoff。

总结来说,本文通过将 PPO 与蒙特卡洛树搜索(MCTS)进行结合,展示了价值模型在指导搜索方面的有效性,并且说明了在模型部署阶段用更多步的启发式搜索换取更高质量生成文本是一条可行之路。

更多方法和实验细节请参阅原论文。封面图片由 DALLE-3 生成。

好了,本文到此结束,带大家了解了《RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
雷军透露:小米汽车进展顺利,明年上半年上市雷军透露:小米汽车进展顺利,明年上半年上市
上一篇
雷军透露:小米汽车进展顺利,明年上半年上市
昆仑万维:第三季度营收入 36.8 亿元同比增长 8%,经营性现金流 7.6 亿元
下一篇
昆仑万维:第三季度营收入 36.8 亿元同比增长 8%,经营性现金流 7.6 亿元
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 互联网信息服务算法备案系统:如何完成算法备案流程
    互联网信息服务算法备案系统
    了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
    62次使用
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    106次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    140次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    271次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    127次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码