当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

来源:机器之心 2024-07-15 14:03:25 0浏览 收藏

最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

针对这一问题,中科院、北大和字节豆包大模型团队发布了 DetailCaps-4870 数据集,并提出了一种有效的评估指标 CAPTURE,取得了开源评估指标中最高的专家评价一致性,并低成本实现了与 GPT-Eval 可比的效果。

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

  • 论文:https://arxiv.org/abs/2405.19092
  • 数据集:https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
  • 代码:https://github.com/foundation-multimodal-models/CAPTURE

简介

当前的 LVLM(large vision-language model)评测存在以下问题:

  • 现有的 LVLM 评测方案主要采用 VQA 形式,很大程度受到指令遵循(instruction following)能力的影响,且 QA prompt 的设计容易引入人类的偏见(bias)。
  • Image caption 任务可以有效评估模型理解能力,但现有的 caption benchmark 多使用短 caption 作为 ground truth,这在 lvlm 时代完全过时。
  • 同时,现有的 image caption 评测指标与人类、GPT 等专家评价结果的一致性较差,常用的 bleu、rouge 等指标抽取 n-gram 进行匹配,对关键信息的准确性不够敏感。而 GPT-Eval 虽然和专家评价较为一致,但是会带来高昂的评测成本。

针对这些问题,该研究提出了新的 Detail image caption benchmark 和 evaluation metric,以在较低的成本下实现了对 LVLM 图像理解能力的准确评估。

在所提出的评测数据集 & 指标的指导下,该研究还探索了发掘 LVLM 自身能力进行 detail image caption 的数据构造方法,有效提升了 detail caption 数据质量。

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                              图一:左侧为 CAPTURE metric 实例展示,右侧为 detail caption construction 方法展示

数据集

相比类似大小的评测数据集,该研究提出的 Detail image caption benchmark 文本长度更长,无重复的 2-gram 数量明显更多,包含更丰富的视觉信息:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                              表一:DetailCaps benchmark 统计信息
评估指标

该研究所提出的 CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information) 指标通过 4 步进行 caption 质量评估。如下图所示,首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素,紧接着过滤掉没有实际意义的 objects。之后,通过三阶段匹配(精确匹配、近义词匹配、embedding 匹配)分别计算 obj、attr、rel 元素的匹配得分(F1 分数),加权作为最终结果。

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                              图二:CAPTURE metric 详细计算步骤

Detail caption 数据合成

在 DetailCaps benchmark 和 CAPTURE metric 的指导下,该研究提出了一种基于 divide-and-conquer 思想发掘 LVLM 潜力进行数据合成的方法,有效提升了 detail caption 数据质量。该方案首先使用 LVLM 进行全图 caption 生成,之后使用分割模型(SAM [2])和聚类等过滤方法找到图中的关键位置并将其裁剪出来进行局部 caption 生成。文章使用一种 word-level 的过滤方法来减少 caption 中的幻觉,该方法首先解析(parse)出描述图中视觉元素的词和短语,再通过目标检测模型(Owlv2 [3])过滤掉得分低的元素。最后,将过滤后的全图 caption、局部 caption 送入 LLM(LLaMA2 [4])融合为最终的图像描述。

实验

CAPTURE 指标

(1)CAPTURE vs 其他 caption 指标

该研究在 DetailCaps-100(人工标注 reference caption,人工评估模型生成 caption 得分)和 DetailCaps-4870(GPT 标注 reference caption,GPT-4 评估模型生成 caption 得分)上,对 LLaVA-1.5 [5]、CogVLM [6] 和 ShareCaptioner [7] 三个模型生成的 caption 进行了专家打分,并计算各个评估指标与专家评价的一致性:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                              表二:CAPTURE 与其他 detail image caption 评估指标的专家评价一致性对比

各 caption 评估指标和专家评价的一致性通过 pearson correlation(线性相关性)、 R^2(绝对值大小)、 Kendall's tau(排序偏序对一致性)和 (Per-) Sample (Kendall's) tau(每个样本单独计算取平均)指标进行衡量。

结果显示,CAPTURE 在各种指标上都取得了最优的专家评价一致性。在这些指标中,Sample tau 与实际 detail image caption 评估的计算方式最为接近,CAPTURE 也是唯一在这个指标上取得与 GPT4-Eval 接近的方法,在评估的准确率、成本上取得了良好的平衡。

(2)消融分析

研究者还对 CAPTURE 中的各个模块进行了消融分析,并验证其有效性:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                             表三:CAPTURE 各模块的消融分析

实验结果显示,Stop words 有效提升了 Sample tau,说明了该模块的有效性。但是 stop words filtering 会对不同样例的 detail caption 造成不同的影响,从而导致 pcc、kendall tau 微降。Soft matching 也提升了 sample tau,同时在 1-R2 分数上有明显增益作用,将 CAPTURE 预测分数和专家打分的绝对分值对齐。在加权计算最终得分时,obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都会造成性能下降。

(3)开源 LVLM 的 detail caption 性能

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                              表四:开源 LVLM 的 detail caption 性能对比

总体来看,InternVL-1.5 是当前表现最好的开源 LVLM。从 LLaVA、MiniGemini 结果可以看出,LLM 参数量的提升对模型 detail caption 能力有一致的提升作用。同时,分辨率较高、使用高质量 detail caption 进行训练的模型,性能会更好。

Detail caption 数据构造

基于 detail caption 评估数据集和评测指标,研究者验证了所提出的 detail caption 数据合成方案的有效性。

(1)Detail caption 合成方法在不同 LVLM 上的有效性

如下表所示,该研究提出的 detail caption 合成方法在 LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-NEXT-7B 和 Mini-Gemini-7B-HD 上取得了一致的 detail caption 质量提升:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                           表五:不同 LVLM 使用该研究提出的 detail caption 合成方法效果

(2)通过 Self-loop 进一步提升 detail caption 性能

研究者还尝试通过数据打标 -> 模型训练 -> 重新打标的训练流程进行 Self-loop 来进一步提升 LVLM detail caption 性能,在四轮 loop 中都取得了正面效果。同时,对比开源方案 [8] 与本文所提出的 word-level 幻觉过滤方案,证明了其设计的有效性:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                             表六:Detail caption 合成方案的 self-looping 效果和消融分析

(3)LVLM 自身打标的 detail caption 可提升其整体性能

该研究使用 LLaVA-1.5 按照给出的 detail caption 构造方案对 sharegpt4v-100k 数据进行了重新打标,并将打标数据用于 LLaVA-1.5 的 SFT 训练,在多个 benchmark 上取得了一致的性能提升:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                             表七:合成 detail caption 数据在 LLaVA-1.5-7B 模型训练中的作用

参考文献
[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue, Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji, and Quan Hung Tran. Factual: A benchmark for faithful and consistent textual scene graph parsing. arXiv:2305.17497, 2023
[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. ICCV 2023
[3] Matthias Minderer, Alexey Gritsenko, and Neil Houlsby. Scaling open-vocabulary object detection. NIPS 2024
[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288, 2023
[5] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following, 2023
[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, and Jie Tang. Cogvlm: Visual expert for pretrained language models. arXiv:2311.03079, 2023
[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, and Dahua Lin. Sharegpt4v: Improving large multi-modal models with better captions. arXiv:2311.12793, 2023
[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, and Xiang Bai. Monkey: Image resolution and text label are important things for large multi-modal models. arXiv:2311.06607, 2023

豆包大模型团队

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在 AI 领域拥有长期愿景与决心,研究方向涵盖 NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等 50 + 业务,并通过火山引擎开放给企业客户。目前,豆包 APP 已成为中国市场用户量最大的 AIGC 应用。欢迎加入字节跳动豆包大模型团队。

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

到这里,我们也就讲完了《豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于入门,CAPTURE的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Golang框架机器学习和人工智能应用实战Golang框架机器学习和人工智能应用实战
上一篇
Golang框架机器学习和人工智能应用实战
PHP框架中的性能优化技巧
下一篇
PHP框架中的性能优化技巧
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    21次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    20次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    33次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    34次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    56次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码