当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

来源:51CTO.COM 2024-04-14 19:36:21 0浏览 收藏

今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。

进行的分析有如下特点:

  • 注重真实应用:研究中采用的数据均来源于真实的用户 - 模型对话,更能反映实际应用中的偏好。
  • 分场景建模:对属于不同场景下的数据(如日常交流,创意写作)独立进行建模分析,避免了不同场景之间的互相影响,结论更清晰可靠。
  • 统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。

该研究发现:

  • 人类用户对模型回复中错误之处的敏感度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。
  • 尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。
  • 基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在“日常交流”场景下,根据偏好解析结果,图1显示了人类、GPT-4-Turbo和LLaMA-2-70B-Chat对不同属性的喜好程度。数值越大表示更偏好该属性,小于50则表示对该属性不感兴趣。

本项目已经开源了丰富的内容与资源:

  • 可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。
  • 数据集:包含了本研究中所收集的用户 - 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。
  • 代码:提供了收集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化分析结果的代码。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

  • 论文:https://arxiv.org/abs/2402.11296
  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
  • 代码:https://github.com/GAIR-NLP/Preference-Dissection
  • 数据集:https://huggingface.co/datasets/GAIR/preference-dissection
方法介绍

研究中使用了 ChatbotArena Conversations 数据集中的成对用户 - 模型对话数据,这些数据来自真实应用场景。每个样本包含一个用户提问和两个不同模型的回复。研究人员首先收集了人类用户对这些样本的偏好标签,这些标签已经包含在原始数据集中。此外,研究人员还额外推理和收集了来自32个不同开源或闭源大模型的标签。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 2:分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。

此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量(<14B 或 > 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列。

另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 6:大模型在对齐微调前后的偏好变化情况

最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。

终于介绍完啦!小伙伴们,这篇关于《模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
大疆推出DJI Avata 2:沉浸式飞行的全新体验大疆推出DJI Avata 2:沉浸式飞行的全新体验
上一篇
大疆推出DJI Avata 2:沉浸式飞行的全新体验
多个goroutine的调度
下一篇
多个goroutine的调度
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    2次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    2次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    2次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    9次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    10次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码