当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

来源:51CTO.COM 2024-04-21 22:12:34 0浏览 收藏

亲爱的编程学习爱好者,如果你点开了这篇文章,说明你对《7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力》很感兴趣。本篇文章就来给大家详细解析一下,主要介绍一下,希望所有认真读完的童鞋们,都有实质性的提高。

图神经网络(GNNs)善于利用图的结构信息进行推断,但通常需要进行特定领域的调优,以实现最佳性能,这使得它们在不同任务之间的泛化能力受到限制。

大型语言模型(LLM)在图推理方面具有更强的跨任务和泛化能力,但通常在特定任务上表现不如专用的图神经网络模型。

当前图推理相关研究往往忽略了视觉信息在图推理中的重要性,无论是传统的图神经网络还是基于大型语言模型的图推理方法。

然而,人类会通过视觉特征高效和准确地完成图任务,例如判断图中是否存在环。

因此,探究视觉形态的图信息在图推理中的作用具有重要意义。

更具体地,将图(Graph)绘制为图片(Image),是否能赋予模型特殊的推理能力呢?这些图片(称为视觉图 Visual Graph)是否能增强现有的基于其他模态的图推理模型呢?

为了回答这些问题,来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

论文地址:https://arxiv.org/abs/2402.02130

项目主页:https://v-graph.github.io/

在GITQA测试基准中,以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B,展示出了超越GPT-4V的图推理性能。

GITQA 多模态图推理问答数据集

研究团队通过将图结构绘制为不同风格的视觉图像,建立了GITQA数据集及其相应的测试基准,GITQA数据集包含超过423K个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

GITQA数据集包含两个版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含单一风格的视觉图。

GITQA-Aug则更加丰富,它对视觉图进行了多种数据增强处理,包括改变布局、点的形状、边的宽度和点的风格等,从而提供了更多样化的视觉图表现。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

如图1,GITQA测试基准包含8个具有代表性的图推理任务:Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS(寻找图的拓扑序)、 SP(寻找图中两点间的最短路径)、 MaxFlow(计算图中两点间的最大流)、 BGM(计算二分图的最大匹配)、 HP(寻找图中的哈密顿路径)和GNN(模拟GNN的消息传递)。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集(相关统计如表1)。

实验及结果

实验一: 基于不同模态图信息的模型的图推理能力对比

研究团队在GITQA-Base数据集上,根据不同的模态图输入类型(包括仅文本(T-Only)、仅视觉(V-Only)、以及文本加视觉(V+T)),评估了流行的闭源和开源大型语言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模态语言模型(如GPT-4V和LLaVA-7B/13B)的表现。如图2所示。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

具体来说,闭源模型GPT-4和GPT-4V执行零样本推理,而对于开源模型Vicuna和LLaVA,则通过保持主干模型参数不变,仅训练Projector和LoRA部分进行了微调(特别地,视觉+文本双模态微调后的LLaVA模型被研究者命名为GITA)。

表2总结了所有八项图推理任务的测试结果。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

视觉模态 V.S. 文本模态

从表2中可以看到,在Cycle和BGM任务上,视觉模态的表现优于文本模态,而在其他五个任务上则不如文本模态。这揭示了视觉和文本在处理特定类型的图推理任务上各具优势。视觉和文本模态的相互增强

对于闭源模型,GPT-4V(V+T)在八个任务的平均准确率上远高于GPT-4 Turbo(T-only)和GPT-4V(V-only)。

对于开源模型(7B,13B),同样地,使用双模态数据训练出的GITA模型平均表现最佳。这些观察结果验证了同时使用视觉和文本信息能够增强模型的图推理能力,相比单模态模型可以实现更好的性能。

更具体地说,GITA-7B(V+T)在几乎所有任务中表现优于LLaVA-7B(V-only)和Vicuna-7B(T-only)。而对于闭源模型,使用双模态在八个任务中的五个上达到了最高准确率。微调后的LLaVA模型可超越GPT-4V

如表2和图3所示,GITA-7B和GITA-13B模型,即经过双模态微调的LLaVA-7B/13B模型,显示出相较于GPT-4V超过13%的显著性能提升。这一巨大的进步幅度表明,微调后的GITA模型能够有效地从GITQA数据集中学习到出色的图推理能力。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

实验二:难度等级对图任务的影响

表3进一步给出了模型在不同难度级别上的测试精度,GNN任务由于对所有模型都太具挑战被省略)。

在所有难度级别的Cycle和BGM任务中,单独使用视觉模态的表现优于文本模态,并且与使用两种模态的表现相当。

然而,对于其他任务,当难度从简单增加到中等或困难时,只使用视觉模态的模型的性能显著下降。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

同样,当难度增加时,只使用文本模态和使用视觉+文本模态的模型在这些任务上也会出现大幅度的性能下降。

对于Connectivity任务,GITA-7B(视觉+文本)和GITA-13B(视觉+文本)在所有三个挑战级别上都表现出相当的性能。

然而,这种一致的模式在GPT-4V(视觉+文本)中并未观察到,因为其性能随着难度级别的增加而下降。

实验三: 视觉图的增强策略和风格偏好

研究团队还探究了特别的数据增强策略在微调模型时的效果。

基于不同的增强策略,研究者将GITQA-Aug数据集划分为四个增强子集: 布局增强数据集,节点形状增强数据集,边的宽度增强数据集,节点风格增强数据集。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

研究者在仅使用视觉图信息的LLaVA-7B模型上对全部四个增强子集进行了单独的微调,其推理性能与数据增强前的比较如表4所示。

可以明显看出,模型在布局增强数据集上对于挑战性任务的推理能力急剧提升(SP 上升64.8%,HP上升69.63%)。

而其他三种数据增强策略反而导致性能下降。

具体来说,模型在布局增强集上取得了优异的结果,比GITQA-Base集高出11%以上。相比之下,其他增广集中八个任务的平均结果比基本集低约5%

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

这些发现表明基于布局的数据增强为图推理提供了更有效的视觉视角。进一步,研究者还测试了各个增强策略下,在同组内基于每种风格的Visual Graph推理的性能,如表5所示,展示出模型没有明显的风格偏好。

到这里,我们也就讲完了《7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于模型,训练的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
如何检查文本是否包含 Golang 列表中的任何单词?如何检查文本是否包含 Golang 列表中的任何单词?
上一篇
如何检查文本是否包含 Golang 列表中的任何单词?
linux查看内存大小的命令是哪个
下一篇
linux查看内存大小的命令是哪个
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    17次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    13次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    18次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码