当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

来源:机器之心 2024-11-28 22:19:06 0浏览 收藏

在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!

开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。

众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。

不过,对于后训练到底要怎么做,哪些细节对模型性能影响较大,目前还没有太多系统的资料可以参考,因为这都是各家的商业机密。

刚刚,曾经重新定义「开源」并发布了史上首个 100% 开源大模型的艾伦人工智能研究所(Ai2)站出来打破了沉默。他们不仅开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 ——Tülu 3 8B 和 70B(未来还会有 405B 版本),还在技术报告中公布了详细的后训练方法。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
                                                  Ai2 研究科学家 Nathan Lambert(论文一作)的推文

这份 70 多页的技术报告可以说诚意满满,非常值得详细阅读:   
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
Tülu 3 发布后,社区反响热烈,甚至有用户表示测试后发现其表现比 GPT-4o 还好。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
另外,Nathan Lambert 还暗示未来可能基于 Qwen 来训练 Tülu 模型。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
本站也简单测试了下 Tülu。首先,数 Strawberry 中 r 数量的问题毫无意外地出错了,至于其编写的笑话嘛,好像也不好笑。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
本地部署 AI 模型的工具 Ollama 也第一时间宣布已经支持该模型。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
本站也简单通过 Ollama 和 Obsidian 的插件简单体验了一下 8B 的本地版本,看起来效果还不错,速度也很快。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
不过,比模型性能更值得关注的或许还是 Tülu 3 的后训练方案。在这套方案的启发下,众多研究者有望在大模型的后训练阶段进行更多尝试,延续大模型的 Scaling Law。

首个发布后训练详情的开源模型

在提升模型性能方面,后训练的作用越来越大,具体包括微调和 RLHF 等。此前,OpenAI、 Anthropic、Meta 和谷歌等大公司已经大幅提升了其后训练方法的复杂度,具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此,这些模型的通用性能和专业能力都非常强。但遗憾的是,他们都没有透明地公开他们的训练数据和训练配方。

到目前为止,开源后训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 排行榜上,前 50 名(截至 2024 年 11 月 20 日)中没有任何一个模型发布了其后训练数据。即使是主要的开放权重模型也不会发布任何数据或用于实现这种后训练的配方细节。

于是,Ai2 似乎看不下去了,决定开源一切!

Tülu 3 模型之外,Ai2 还发布了所有的数据、数据混合方法、配方、代码、基础设施和评估框架!
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
  • 模型:https://huggingface.co/allenai

  • 技术报告:https://allenai.org/papers/tulu-3-report.pdf

  • 数据集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372

  • GitHub:https://github.com/allenai/open-instruct

  • Demo:https://playground.allenai.org/


下表展示了 Ai2 开源的模型、数据集和代码:
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
Ai2 表示,Tülu 3 突破了后训练研究的界限,缩小了开放和封闭微调配方之间的性能差距。

为此,他们创建了新的数据集和新的训练流程。他们还提出了直接使用强化学习在可验证问题上训练的新方法,以及使用模型自己的生成结果创建高性能偏好数据的新方法。

加上更多优化细节,得到的 Tülu 3 系列模型明显优于同等规模的其它模型。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
                                     8B 模型在各基准上的表现
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
                                    70B 模型在各基准上的表现

Tülu 3 是如何炼成的?  

Ai2 在预训练语言模型的基础上,通过四个阶段的后训练方法生成 Tülu 3 模型(见图 1)。这套训练流程结合了强化学习中的新算法改进、尖端基础设施和严格的实验,以便在各个训练阶段整理数据并优化数据组合、方法和参数。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
这些阶段如下:

  • 阶段一:数据整理。Ai2 整理了各种提示(prompt)信息,并将其分配到多个优化阶段。他们创建了新的合成提示,或在可用的情况下,从现有数据集中获取提示,以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
  • 阶段二:监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调(SFT)。在评估框架指导下,他们通过全面的实验,确定最终的 SFT 数据和训练超参数,以增强目标核心技能,同时不对其他技能的性能产生重大影响。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
  • 阶段三:偏好微调。Ai2 将偏好微调 —— 特别是 DPO(直接偏好优化)—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样,他们通过全面的实验来确定最佳偏好数据组合,从而发现哪些数据格式、方法或超参数可带来改进。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
  • 阶段四:具有可验证奖励的强化学习。Ai2 引入了一个新的基于强化学习的后训练阶段,该阶段通过可验证奖励(而不是传统 RLHF PPO 训练中常见的奖励模型)来训练模型。他们选择了结果可验证的任务,例如数学问题,并且只有当模型的生成被验证为正确时才提供奖励。然后,他们基于这些奖励进行强化学习训练。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
Tülu 3 pipeline 的主要贡献在于数据、方法、基础设施的改进和严格的评估。其中的关键要素包括: 
  • 数据质量、出处和规模:Ai2 通过仔细调查可用的开源数据集、分析其出处、净化来获取提示,并针对核心技能策划合成提示。为确保有效性,他们进行了全面的实验,研究它们对评估套件的影响。他们发现有针对性的提示对提高核心技能很有影响,而真实世界的查询(如 WildChat)对提高通用聊天能力很重要。利用 Tülu 3 EVAL 净化工具,他们可以确保提示不会污染评估套件。

  • 创建多技能 SFT 数据集。通过利用不同数据混合结果进行几轮有监督微调,Ai2 优化了「通用」和「特定技能」类别中提示的分布。例如,为了提高数学推理能力,Ai2 首先通过创建数学专业模型在评估套件中建立一个上限,然后混合数据,使通用模型更接近这个上限。

  • 编排一个 On-Policy 偏好数据集。Ai2 开发了一个 on-policy 数据编排 pipeline,以扩展偏好数据集生成。具体来说,他们根据给定的提示从 Tülu 3-SFT 和其他模型中生成完成结果,并通过成对比较获得偏好标签。他们的方法扩展并改进了 Cui et al. [2023] 提出的 off-policy 偏好数据生成方法。通过对偏好数据进行精心的多技能选择,他们获得了 354192 个用于偏好调整的实例,展示了一系列任务的显着改进。

  • 偏好调整算法设计。Ai2 对几种偏好调整算法进行了实验,观察到使用长度归一化( length-normalized)直接偏好优化的性能有所提高。他们在实验中优先考虑了简单性和效率,并在整个开发过程和最终模型训练中使用了长度归一化直接偏好优化算法,而不是对基于 PPO 的方法进行成本更高的研究。

  • 具有可验证奖励的特定技能强化学习。Ai2 采用了一种新方法,利用标准强化学习范式,针对可以对照真实结果(如数学)进行评估的技能进行强化学习。他们将这种算法称为「可验证奖励强化学习」(RLVR)。结果表明,RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的性能。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
  • 用于强化学习的训练基础设施。Ai2 实现了一种异步式强化学习设置:通过 vLLM 高效地运行 LLM 推理,而学习器还会同时执行梯度更新。并且 Ai2 还表示他们的强化学习代码库的扩展性能非常好,可用于训练 70B RLVR 策略模型。

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
Tülu 3 的表现如何?

为了评估 Tülu 3 以及其它模型,Ai2 设计了一套评估框架,其中包含一个用于可重复评估的开放评估工具包、一套用于评估指令微调模型的核心技能的套件(具有分立的开发和留存评估),以及一组推荐设置(基于 Ai2 对各种模型的实验)——Ai2 称之为 Tülu 3 Evaluation Regime。

除了评估最终模型,该框架还是一个开放的评估工具套件,旨在通过精心挑选的评估套件和净化工具来引导开发进度。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
下面展示了一些主要的评估结果。可以看到,同等规模性,在这些基准上,Tülu 3 的表现非常出色,其中 70B 版本的平均性能甚至可与 Claude 3.5 Haiku 比肩。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
此外,Ai2 还提出了两个新的评估基准:IFEval-OOD 和 HREF。

IFEval-OOD 的目标是测试 LLM 遵从精确指令的能力,以及它们是否能够遵从超出 IFEval 中包含的 25 个约束的指令约束。IFEval-OOD 包含 6 大类 52 个约束。

HREF 的全称是 Human Reference-guided Evaluation of instruction Following,即人类偏好指导的指令遵从评估,其目标是自动评估语言模型遵从指令的能力。HREF 专注于语言模型通常训练的 11 个指令遵从任务,即头脑风暴、开放式 QA、封闭式 QA、提取、生成、重写、总结、分类、数值推理、多文档合成和事实核查。

下表给出了 Tülu 3 与对比模型在这两个新基准以及其它已有基准上的表现,具体涉及的领域包括知识调用、推理、数学、编程和指令遵从。需要注意,这些都是 Unseen 基准,即这些任务是模型训练过程中未见过的。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
安全性方面,以下两表展示了 Tülu 3 与对比模型在两个基准上的安全分数。整体而言,同等规模下,Tülu 3 相较于其它开源模型更有优势。
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
最后必须说明,长达 73 页的 Tülu 3 技术报告中还包含大量本文并未提及的细节,感兴趣的读者千万不要错过。

参考链接:
https://allenai.org/blog/tulu-3?includeDrafts
https://x.com/natolambert/status/1859643351441535345
https://www.interconnects.ai/p/tulu-3

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Vue中van-calendar组件重绘问题:如何避免第三方组件因Vue重绘而重新渲染?Vue中van-calendar组件重绘问题:如何避免第三方组件因Vue重绘而重新渲染?
上一篇
Vue中van-calendar组件重绘问题:如何避免第三方组件因Vue重绘而重新渲染?
深入解析亚马逊平板电脑:功能、优势与购买指南
下一篇
深入解析亚马逊平板电脑:功能、优势与购买指南
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    14次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    11次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码