当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 学习ChatGPT,AI绘画引入人类反馈会怎样?

学习ChatGPT,AI绘画引入人类反馈会怎样?

来源:51CTO.COM 2023-04-15 19:32:57 0浏览 收藏

今天golang学习网给大家带来了《学习ChatGPT,AI绘画引入人类反馈会怎样?》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

最近,深度生成模型在根据文本 prompt 生成高质量图像方面取得了显著成功,部分原因在于深度生成模型扩展到了大规模网络数据集(如 LAION)。但是,一些重大挑战依然存在,因而大规模文本到图像模型无法生成与文本 prompt 完全对齐的图像。举例而言,当前的文本到图像模型往往无法生成可靠的视觉文本,并在组合式图像生成方面存在困难。

回到语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,然后通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。

图片

论文地址:https://arxiv.org/pdf/2302.12192v1.pdf

本文方法如下图 1 所示,主要分为 3 个步骤。

第一步:首先从「设计用来测试文本到图像模型输出对齐的」一组文本 prompt 中生成不同的图像。具体地,检查预训练模型更容易出错的 prompt—— 生成具有特定颜色、数量和背景的对象,然后收集用于评估模型输出的二元人类反馈。

第二步:使用了人工标记的数据集,训练一个奖励函数来预测给定图像和文本 prompt 的人类反馈。研究者提出了一项辅助任务,在一组扰动文本 prompt 中识别原始文本 prompt,以更有效地将人类反馈用于奖励学习。这一技术改进了奖励函数对未见过图像和文本 prompt 的泛化表现。

第三步:通过奖励加权似然最大化更新文本到图像模型,以更好地使它与人类反馈保持一致。与之前使用强化学习进行优化的工作不同,研究者使用半监督学习来更新模型,以测量模型输出质量即学得的奖励函数。

图片

研究者使用带有人类反馈的 27000 个图像 - 文本对来微调 Stable Diffusion 模型,结果显示微调后的模型在生成具有特定颜色、数量和背景的对象方面实现显著提升。图像 - 文本对齐方面实现了高达 47% 的改进,但图像保真度略有下降。

此外,组合式生成结果也得到了改进,即在给定未见过颜色、数量和背景 prompt 组合时可以更好地生成未见过的对象。他们还观察到,学得的奖励函数比测试文本 prompt 上的 CLIP 分数更符合人类对对齐的评估。

不过,论文一作 Kimin Lee 也表示,本文的结果并没有解决现有文本到图像模型中所有的失效模型,仍存在诸多挑战。他们希望这项工作能够突出从人类反馈中学习在对齐文生图模型中的应用潜力。

图片

方法介绍

为了将生成图像与文本 prompt 对齐,该研究对预训练模型进行了一系列微调,过程如上图 1 所示。首先从一组文本 prompt 中生成相应的图像,这一过程旨在测试文生图模型的各种性能;然后是人类评分员对这些生成的图像提供二进制反馈;接下来,该研究训练了一个奖励模型来预测以文本 prompt 和图像作为输入的人类反馈;最后,该研究使用奖励加权对数似然对文生图模型进行微调,以改善文本 - 图像对齐。

人类数据收集

为了测试文生图模型的功能,该研究考虑了三类文本 prompt:指定数量(specified count)、颜色、背景。对于每个类别,该研究对每个描述该物体的单词或短语两两进行组合来生成 prompt,例如将绿色(颜色)与一只狗(数量)组合。此外,该研究还考虑了三个类别的组合(例如,在一个城市中两只染着绿颜色的狗)。下表 1 更好的阐述了数据集分类。每一个 prompt 会被用来生成 60 张图像,模型主要为 Stable Diffusion v1.5 。

图片

人类反馈

接下来对生成的图像进行人类反馈。由同一个 prompt 生成的 3 张图像会被呈递给打标签人员,并要求他们评估生成的每幅图像是否与 prompt 保持一致,评价标准为 good 或 bad。由于这项任务比较简单,用二元反馈就可以了。

奖励学习

为了更好的评价图像 - 文本对齐,该研究使用奖励函数图片来衡量,该函数可以将图像 x 的 CLIP 嵌入和文本 prompt z 映射到标量值。之后其被用来预测人类反馈 k_y ∈ {0, 1} (1 = good, 0 = bad) 。

从形式上来讲,就是给定人类反馈数据集 D^human = {(x, z, y)},奖励函数图片通过最小化均方误差 (MSE) 来训练:

图片

此前,已经有研究表明数据增强方法可以显着提高数据效率和模型学习性能,为了有效地利用反馈数据集,该研究设计了一个简单的数据增强方案和奖励学习的辅助损失(auxiliary loss)。该研究在辅助任务中使用增强 prompt,即对原始 prompt 进行分类奖励学习。Prompt 分类器使用奖励函数,如下所示:

图片

辅助损失为:

图片

最后是更新文生图模型。由于模型生成的数据集多样性是有限的,可能导致过拟合。为了缓解这一点,该研究还最小化了预训练损失,如下所示:

实验结果 

实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。

图片

人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。 

图片

图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。

图片

奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。

图片

到这里,我们也就讲完了《学习ChatGPT,AI绘画引入人类反馈会怎样?》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于技术,研究的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
弄明白OpenCV中的CvType各种参数意义以及相关方法弄明白OpenCV中的CvType各种参数意义以及相关方法
上一篇
弄明白OpenCV中的CvType各种参数意义以及相关方法
大模型能自己「写」论文了,还带公式和参考文献,试用版已上线
下一篇
大模型能自己「写」论文了,还带公式和参考文献,试用版已上线
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    514次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    499次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    1086次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    1036次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    1069次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    1083次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    1064次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码