当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

来源：51CTO.COM 2024-04-16 20:54:16 0浏览收藏

本篇文章向大家介绍《谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA》，主要包括，具有一定的参考价值，需要的朋友可以参考一下。

每个人想要的大模型，是真·智能的那种......

这不，谷歌团队就做出来了一个强大的「读屏」AI。

研究人员将其称为ScreenAI，是一种理解用户界面和信息图表的全新视觉语言模型。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

论文地址：https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一种新的屏幕截图文本表示方法，可以识别UI元素的类型和位置。

研究人员使用谷歌语言模型PaLM 2-S生成了合成训练数据，这些数据被用来训练模型，以回答与屏幕信息、屏幕导航和屏幕内容摘要相关的问题。值得一提的是，这种方法为提高模型在处理屏幕相关任务时的表现提供了新的思路。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

举个栗子，比如打开一音乐APP页面，可以询问「有几首歌时长少于30秒」？

ScreenAI便给出了简单的答案：1。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

再比如命令ScreenAI打开菜单，就可以选中。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

架构灵感来源——PaLI

图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构（由一个多模态编码器块组成）的启发。

该编码器块包含一个类似ViT的视觉编码器和一个消费图像（consuming image）和文本输入的mT5语言编码器，后接一个自回归解码器。

输入图像通过视觉编码器转化为一系列嵌入，这些嵌入与输入文本嵌入结合，一起输入mT5语言编码器。

编码器的输出传递给解码器，生成文本输出。

这种泛化公式能够使用相同的模型架构，解决各种视觉和多模态任务。这些任务可以重新表述为文本+图像（输入）到文本（输出）的问题。

与文本输入相比，图像嵌入构成了多模态编码器输入长度的重要部分。

简而言之，该模型采用图像编码器和语言编码器提取图像与文本特征，将二者融合后输入解码器生成文本。

这种构建方式可以广泛适用于图像理解等多模态任务。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

另外，研究人员还进一步扩展了PaLI的编码器-解码器架构，以接受各种图像分块模式。

原始的PaLI架构只接受固定网格模式的图像块来处理输入图像。然而，研究人员在屏幕相关领域遇到的数据，跨越了各种各样的分辨率和宽高比。

为了使单个模型能够适应所有屏幕形状，有必要使用一种适用于各种形状图像的分块策略。

为此，谷歌团队借鉴了Pix2Struct中引入的一种技术，允许根据输入图像形状和预定义的最大块数，生成任意网格形状的图像块，如图1所示。

这样能够适应各种格式和宽高比的输入图像，而无需对图像进行填充或拉伸以固定其形状，从而使模型更通用，能够同时处理移动设备（即纵向）和台式机（即横向）的图像格式。

模型配置

研究人员训练了3种不同大小的模型，包含670M、2B和5B参数。

对于670M和2B参数模型，研究人员从视觉编码器和编码器-解码器语言模型的预训练单峰检查点开始。

对于5B参数模型，从 PaLI-3的多模态预训练检查点开始，其中ViT与基于UL2的编码器-解码器语言模型一起训练。

表1中可以看到视觉和语言模型之间的参数分布情况。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

自动数据生成

研究人员称，模型开发的预训练阶段很大程度上，取决于对庞大且多样化的数据集的访问。

然而手动标注广泛的数据集是不切实际的，因此谷歌团队的策略是——自动数据生成。

这种方法利用专门的小模型，每个模型都擅长高效且高精度地生成和标记数据。

与手动标注相比，这种自动化方法不仅高效且可扩展，而且还确保了一定程度的数据多样性和复杂性。

第一步是让模型全面了解文本元素、各种屏幕组件及其整体结构和层次结构。这种基础理解对于模型准确解释各种用户界面并与之交互的能力至关重要。

这里，研究人员通过爬虫应用程序和网页，从各种设备（包括台式机、移动设备和平板电脑）收集了大量屏幕截图。

然后，这些屏幕截图会使用详细的标签进行标注，这些标签描述了UI 元素、它们的空间关系以及其他描述性信息。

此外，为了给预训练数据注入更大的多样性，研究人员还利用语言模型的能力，特别是PaLM 2-S分两个阶段生成QA对。

首先生成之前描述的屏幕模式。随后，作者设计一个包含屏幕模式的提示，指导语言模型生成合成数据。

经过几次迭代后，可以确定一个有效生成所需任务的提示，如附录C所示。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

为了评估这些生成响应的质量，研究人员对数据的一个子集进行了人工验证，以确保达到预定的质量要求。

该方法在图2中进行了描述，大大提升预训练数据集的深度与广度。

通过利用这些模型的自然语言处理能力，结合结构化的屏幕模式，便可以模拟各种用户交互和情景。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

两组不同任务

接下来，研究人员为模型定义了两组不同的任务：一组初始的预训练任务和一组后续的微调任务。

这两组的区别主要在于两个方面：

- 真实数据的来源：对于微调任务，标记由人类评估者提供或验证。对于预训练任务，标记是使用自监督学习方法推断的或使用其他模型生成的。

- 数据集的大小：通常预训练任务包含大量的样本，因此，这些任务用于通过更扩展的一系列步骤来训练模型。

表2显示所有预训练任务的摘要。

在混合数据中，数据集按其大小按比例加权，每个任务允许的最大权重。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

将多模态源纳入多任务训练中，从语言处理到视觉理解和网页内容分析，使模型能够有效处理不同的场景，并增强其整体多功能性和性能。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

研究人员在微调期间使用各种任务和基准来估计模型的质量。表3总结了这些基准，包括现有的主要屏幕、信息图表和文档理解基准。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

实验结果

图4显示了ScreenAI模型的性能，并将其与各种与屏幕和信息图形相关的任务上的最新SOT结果进行了比较。

可以看到，ScreenAI在不同任务上取得的领先性能。

在表4中，研究人员呈现了使用OCR数据的单任务微调结果。

对于QA任务，添加OCR可以提高性能（例如Complex ScreenQA、MPDocVQA和InfoVQA上高达4.5%）。

然而，使用OCR会稍微增加输入长度，从而导致整体训练速度更慢。它还需要在推理时获取OCR结果。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

另外，研究人员使用以下模型规模进行了单任务实验：6.7亿参数、20亿参数和50亿参数。

在图4中可以观察到，对于所有任务，增加模型规模都可以改进性能，在最大规模下的改进还没有饱和。

对于需要更复杂的视觉文本和算术推理的任务（例如InfoVQA、ChartQA和Complex ScreenQA），20亿参数模型和50亿参数模型之间的改进明显大于6.7亿参数模型和20亿参数模型。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

最后，图5显示了，对于长宽比>1.0的图像（横向模式图像），pix2struct分割策略明显优于固定网格分割。

对于纵向模式图像，趋势相反，但固定网格分割仅稍微好一些。

鉴于研究人员希望ScreenAI模型能够在不同长宽比的图像上使用，因此选择使用pix2struct分割策略。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌研究人员表示，ScreenAI模型还需要在一些任务上进行更多研究，以缩小与GPT-4和Gemini等更大模型的差距。

理论要掌握，实操不能落！以上关于《谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

AI 谷歌

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

Java Servlet的应用场景有哪些？

Java Servlet的应用场景有哪些？

上一篇: Java Servlet的应用场景有哪些？

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

下一篇: Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

查看更多

最新文章

科技周边 · 人工智能 | 4小时前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

627次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

643次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

610次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

778次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

762次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码