当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > GPT-4可能采用的推断解码技术是什种?对其历史、现状和应用进行综述

GPT-4可能采用的推断解码技术是什种?对其历史、现状和应用进行综述

来源:51CTO.COM 2024-02-29 13:27:06 0浏览 收藏

本篇文章给大家分享《GPT-4可能采用的推断解码技术是什种?对其历史、现状和应用进行综述》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decoding)已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中,会先预测几个可能的 token,然后并行地验证是否准确。与自回归解码不同,推测解码能够单步解码多个 token,从而加速推理。

尽管推测解码在许多方面都表现出巨大潜力,但也带来了一些需要深入研究的关键问题。首先,我们需要思考如何选择或设计适当的近似模型,以在推测的准确性和生成的效率之间取得平衡。其次,重要的是确保评估标准能够同时维持生成结果的多样性和质量。最后,必须认真考虑近似模型和目标大模型之间的推理过程的对齐,以提高推理的准确性。

来自香港理工大学、北京大学、MSRA以及阿里的研究者对推测解码进行了全面的调研,机器之心对此进行了综合总结。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况


  • 论文标题:Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
  • 论文地址:https://arxiv.org/pdf/2401.07851.pdf

推测解码的演化之路

文章首先详细介绍了推测解码技术的早期研究情况,并通过时间表展示了其发展历程(见图 2)。

分块采样(Blockwise Decoding)是一种在 Transformer 解码器上集成额外前馈神经(FFN)头的方法,能够单步生成多个 token。

为了进一步充分发挥分块采样算法的潜力,提出了推测解码的解决方案。这种算法涵盖了一个独立的近似模型,通常采用专门的非自回归 Transformer,能够高效而精确地执行生成任务。

继推测解码出现之后,有学者接着提出了「投机采样算法」(Speculative Sampling),在推测解码中加入了无损加速核采样。

总的来说,这些关于推测解码的创新尝试已经开始加强 Draftthen-Verify 范式,并且展示了在 LLM 加速方面的巨大潜能。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

公式和定义

本节首先简要概述了标准自回归解码的内容,然后深入阐述了推测解码算法,包括对形式定义、方法论的全面描述以及算法的详细阐述。

本文提出了一个组织框架来对相关研究进行分类,如下图 3 所示。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

本文在前人的基础上,对「推测解码算法」再次进行了正式的定义:

推测解码算法是一种先生成后验证的解码模式,在每个解码步骤,它首先需要能生成多个可能的 token,然后使用目标大语言模型并行地评估所有这些 token,以加快推理速度。算法表 2 是一个详细的推测解码过程。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

随后,本文深入研究了这一范式不可或缺的两个基本子步骤 —— 生成和评估。

生成

在每个解码步骤中,推测解码算法首先会生成多个可能的 token,作为对目标大语言模型的输出内容的推测。

本文将生成的内容分为两类:独立生成(independent drafting )和自生成(self-drafting),并在下表 1 中总结了其公式。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

验证

在每个解码步骤中,并行地验证近似模型生成的 token,以确保输出质量与目标大语言模型高度一致。这个过程还确定了每一步可允许的 token 数量,这是一个能够影响加速情况的一个重要因素。

对各种验证标准的总结如下表 2 所示,包括那些在大语言模型推理中支持贪心解码和核采样的标准。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

生成和验证的子步骤会持续迭代,直到满足终止条件为止,即 [EOS] token 被解码或句子达到最大长度。

此外,本文引入了 token 的树验证算法,这是一种逐步提高 token 接受度的有效策略。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

模型对齐

提高推测准确性是加速推测解码的关键:近似模型的预测行为越接近目标大语言模型,对其生成 token 的接受率就越高。为此,现有的工作探索了各种知识提取(KD)策略,以使近似模型的输出内容与目标大语言模型的输出内容保持一致。

分块解码首先采用序列级知识提取(Seq-KD)来进行模型对齐,用目标大语言模型生成的句子训练近似模型。

此外,Seq-KD 也是提高并行解码生成质量的有效策略,提高了并行解码的生成性能。

下表 3 中总结了现有推测解码方法的主要特征,包括近似模型的类型或生成策略、模型对齐方法、支持的评估策略和加速程度等情况。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

应用

除了作为一种通用范式外,最近的工作还表明,推测解码的一些变体在特定任务中表现出非凡的有效性。此外,其他研究已经将这种范式应用于解决某些应用场景特有的延迟问题,从而实现推理加速。

例如,有些学者认为,推测解码特别适合于模型输入和输出高度相似的任务,如语法纠错和检索增强生成。

除了这些工作之外,RaLMSpec(Zhang et al., 2023b)用推测解码来加速检索增强语言模型(RaLMs)。

机遇与挑战

问题 1:如何权衡预测内容的准确性和生成效率?尽管目前对这个问题取得了一些进展,但在使近似模型与目标大语言模型生成内容保持一致方面仍有相当大的改进空间。除了模型对齐之外,其他因素(如生成质量和预测长度的确定)也会影响推测的准确性,值得进一步探索。

问题 2:如何将推测解码与其他领先技术相结合?作为一种通用的解码模式,推测解码已经与其他先进技术相结合,展示了其潜力。除了加速纯文本的大语言模型之外,推测解码在多模式推理中的应用,如图像合成、文本到语音合成和视频生成,也是未来研究的一个有趣而有价值的方向。

更多细节内容请参阅原论文。

文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《GPT-4可能采用的推断解码技术是什种?对其历史、现状和应用进行综述》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Golang中的JSON嵌套结构体Golang中的JSON嵌套结构体
上一篇
Golang中的JSON嵌套结构体
使用 gocron 在特定日期和时间自动执行作业
下一篇
使用 gocron 在特定日期和时间自动执行作业
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    3次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    24次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    23次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码