当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

2025-01-18 21:45:47 0浏览收藏

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V》，介绍一下，希望对大家的知识积累有所帮助，助力实战开发！

苹果悄然进军大模型领域，其最新多模态模型Ferret-UI或将改变游戏规则？| 编译：赖文昕

大模型技术引爆科技圈，巨头与新兴企业展开激烈角逐。OpenAI、Anthropic和Mistral等新秀的崛起，证明了在大模型时代，传统巨头并非占据绝对优势。

近期，苹果叫停了耗资数十亿美元、历时十余年的自动驾驶项目，并裁减了美国总部600多名员工，另有近2000名员工转投AI部门。然而，在主流智能手机厂商中，苹果却迟迟未推出自研大模型，这与以往的领先地位形成鲜明对比。

4月8日，苹果发布了名为“Ferret-UI”的新研究成果，这是一个能够理解并执行手机屏幕任务的多模态模型。该模型专为增强对移动端UI的理解而设计，具备引用、定位和推理功能。

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

论文链接：https://arxiv.org/pdf/2404.05719.pdf

六个月前，苹果与哥伦比亚大学合作发布了多模态大模型“Ferret”，展现出强大的图文关联能力。“Ferret-UI”则更专注于移动端应用和用户交互。

研究团队表示，Ferret-UI能够有效理解和交互用户界面（UI），弥补了现有通用多模态大模型的不足。

UI任务性能超越GPT-4V

Ferret-UI的亮点在于其对UI的专注。苹果团队对比了Ferret-UI-base、Ferret-UI-anyres、Ferret和GPT-4V在各种UI任务上的表现，并在高级任务中加入了开源模型Fuyu和CogAgent进行对比。

在基础UI任务测试中，Ferret-UI在大多数任务上表现出色，尤其是在与iPhone相关的任务中，除了“查找文本”任务外，它全面超越了Ferret和GPT-4V。

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

在OCR、图标识别和控件分类等任务上，Ferret-UI的平均准确率分别达到72.9%、82.4%和81.4%，远高于GPT-4V的47.6%、61.3%和37.7%。在安卓任务中，GPT-4V的性能显著下降，尤其是在定位任务上，这可能是由于安卓UI元素更小、更密集造成的。

值得注意的是，在OCR任务中，模型预测的是目标区域旁的文本，而非目标区域内的文本。Ferret-UI能够准确预测部分被遮挡的文本，即使OCR模型返回错误文本也能做到。

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

在查找文本、图标和控件等定位任务中，Ferret-UI同样表现优异。在高级UI任务（如详细描述、感知对话、交互对话和功能推断）中，Ferret-UI与GPT-4V不相上下，甚至在某些任务上超越了后者。与开源模型Fuyu和CogAgent相比，Ferret-UI在大多数任务上均取得领先，尤其是在iPhone平台上优势明显。

尽管训练数据中未包含安卓数据，Ferret-UI在安卓平台上的高级任务中也展现出不错的性能，表明其具有跨操作系统UI知识迁移能力。

Anyres技术解决屏幕长宽比差异难题

Ferret-UI的成功离不开“任何分辨率”（anyres）技术的创新。这项技术旨在解决移动设备屏幕长宽比多样化的问题。

Ferret-UI-anyres在Ferret-UI-base的基础上，增加了额外的细粒度图像特征，包括预训练图像编码器和投影层，用于生成整个屏幕的图像特征。

对于每个基于原始图像长宽比获得的子图像，都会生成额外的图像特征；对于具有区域引用的文本，视觉采样器会生成相应的区域连续特征。大型语言模型（LLM）使用全图表示、子图表示、区域特征和文本嵌入来生成响应。

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V