当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

来源:51CTO.COM 2023-11-27 21:36:47 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

想知道《清明上河图》里面有多少头骆驼吗?来看看这个支持超高清输入的多模态模型吧。

最近,来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

论文地址:https://arxiv.org/abs/2311.04219

与受限于固定尺寸视觉编码器的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保了其在各种推理需求下的通用性。

同时,团队还提出了一个全新的基准测试MagnifierBench,可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。

实验结果表明,OtterHD-8B的性能表现在直接处理高分辨率输入方面显著优于同类型号

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

效果演示

如下图中,询问清明上河图(局部)中有多少只骆驼,图片输入达到了2446x1766像素,模型也能成功对答。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

面对GPT4-V曾经为之困惑的数苹果问题,该模型成功地计算出其中包含11个苹果

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验


除了论文中展示的高清输入的例子,我们也进行了一些测试,下图我们让模型假设用户是一个剑桥大学的PhD,解释这个图是什么意思。

其中模型的回答中准确的识别出图片中的Black Hole和White Hole等信息,并且识别出其是一个tunnel-like structure,然后给出了详细的解释。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

在下面的图表中,模型被要求解释关于能源占比的情况。模型成功地识别了图中所示的几种能源类型,并准确地呈现了它们随时间变化的占比情况

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

下图关于换灯泡的流程图,模型准确理解了流程图的含义并且给出了一步一步的详细指导。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

80亿参数指令微调OtterHD-8B

Fuyu-8B的OtterHD-8B是第一个在最大1024×1024输入上进行训练的开源指令微调大语言模型,这一点值得注意

此外,在推理过程中,它还能进一步扩展到更大的分辨率(如1440×1440)。

训练细节

在初步实验中,团队发现Fuyu在对某些基准测试的特定指令作出响应时表现不佳,这导致在MME和MMBench上模型的性能非常弱

为了解决这些问题,团队进行了指令微调,基于370K条混合数据对Fuyu模型进行了调整,并参考LLaVA-1.5的相似指令模板来规范模型回答的格式

在训练阶段,所有数据集都被组织成指令/应答对,汇总到统一的 dataloader中,并进行统一采样,以确保代表性的完整性。

为了提升建模代码的效能,团队采用了FlashAttention-2和FlashAttention资源库中的算子融合技术

在Fuyu简化的架构的帮助下,根据图2所示,这些修改显著提高了GPU的利用率和吞吐量

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

具体来说,团队提出的方法可以在8×A100 GPU上以3小时/epoch的速度完成全参数训练,而LoRA微调后每epoch只需1小时。

在使用AdamW优化器训练模型时,批大小为64,学习率设置为1×10^-5,权重衰减为0.1。

超精细评测基准MagnifierBench

人类视觉系统可以自然地感知视野内物体的细节,但目前用于测试LMM的基准并没有特别侧重于评估这方面的能力。

随着Fuyu和OtterHD模型的出现,我们第一次将输入图像的分辨率扩展到了更大的范围。

为此,团队基于Panoptic Scene Graph Generation(PVSG)数据集,制作了一个涵盖166幅图像共283组问题的全新测试基准MagnifierBench。

PVSG数据集由视频数据组成,其中包含大量杂乱无章的复杂场景,尤其是第一人称的家务视频。

在标注阶段,团队仔细检查了数据集中的每个问题-答案对,剔除了那些涉及大型物体,或者很容易用常识性知识回答的问题。例如,遥控器大多都是黑的,很容易猜到,而红黄等颜色则不在此列。

如图3所示,MagnifierBench设计的问题类型包括识别、数字、颜色相关问题等。该数据集的一个重要标准是,问题必须足够复杂,就连标注者都必须在全屏模式下,甚至放大图像才能准确回答

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

与简短的回答相比,LMM更擅长在对话环境中生成扩展的回答。

- 多选题

这个模型面临的问题是有多个选项可以选择。为了引导模型选择一个字母(如A、B、C)作为答案,团队在问题前加上了给定选项中的字母作为提示。在这种情况下,只有完全符合正确选项的答案才被视为正确答案

- 开放题

多个选项会简化任务,因为随机猜测有25%的正确率。此外,这并不能反映聊天助手所面临的真实场景,因为用户通常不会向模型提供预定义的选项。为了消除这种潜在的偏差,团队还以直截了当、不设任何提示选项的开放式方式向模型提出问题。

实验分析

研究结果表明,虽然很多模型在MME和POPE等既定基准上取得了高分,但它们在MagnifierBench上的表现却往往不尽如人意。另一方面,OtterHD-8B在MagnifierBench上表现出色。

团队为了进一步探索提高分辨率的效果,以及测试OtterHD在不同、可能更高的分辨率下的泛化能力,通过使用固定或动态分辨率对Otter8B进行了训练

x轴表明,随着分辨率的提高,会有更多的图像token被发送到语言解码器,从而提供了更多的图像细节。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

实验结果表明,随着分辨率的提高,MagnifierBench的性能也在相应提升

随着分辨率的提高,图像与文本的比例逐渐增大。这是因为平均文本的token数保持不变

这一变化突出了LMM分辨率的重要性,尤其是对于需要复杂视觉关联的任务。

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

此外,固定训练方法和动态训练方法之间的性能差异凸显了动态调整大小的优势,尤其是防止特定分辨率的过拟合。

动态策略还有一个优点,就是可以让模型适应更高的分辨率(1440),即使在训练期间没有见过

一些对比

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验

结论

基于Fuyu-8B的创新架构,研究团队提出了OtterHD-8B模型,它可以有效处理各种分辨率的图像,并摆脱了大多数LMM中固定分辨率输入的限制

与此同时,OtterHD-8B在处理高分辨率图像方面表现出色

在新的MagnifierBench基准测试中,这一点变得尤为明显。该基准测试的目的是评估LMM在复杂场景中识别细节的能力,突出了对不同分辨率更加灵活支持的重要性

终于介绍完啦!小伙伴们,这篇关于《通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
轻量化版 Win 11 – Tiny11 2311 正式推出:只占 8GB 空间轻量化版 Win 11 – Tiny11 2311 正式推出:只占 8GB 空间
上一篇
轻量化版 Win 11 – Tiny11 2311 正式推出:只占 8GB 空间
魅族AR智能眼镜曝光!11月30日揭晓真容,你怎么“看”?
下一篇
魅族AR智能眼镜曝光!11月30日揭晓真容,你怎么“看”?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    21次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    20次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    33次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    34次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    56次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码