当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

来源：51CTO.COM 2023-04-30 09:18:35 0浏览收藏

IT行业相对于一般传统行业，发展更新速度更快，一旦停止了学习，很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习，精进自己的技术，尤其是初学者。今天golang学习网给大家整理了《Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远》，聊聊，我们一起来看看吧！

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

自从 DALL-E 2 问世以来，很多人都认为，能够绘制逼真图像的 AI 是迈向通用人工智能（AGI）的一大步。OpenAI 的 CEO Sam Altman 曾在 DALL-E 2 发布的时候宣称“AGI is going to be wild”，媒体也都在渲染这些系统对于通用智能进展的重大意义。

但真的是如此吗？知名 AI 学者（给 AI 泼冷水爱好者） Gary Marcus 表示“持保留意见”。

最近，他提出，在评估 AGI 的进展时，关键要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统是否真正理解世界，从而能够根据这些知识进行推理并进行决策。

在判断这些系统之于 AI （包括狭义和广义的 AI）的意义时，我们可以提出以下三个问题：

图像合成系统能否生成高质量的图像？

它们能否将语言输入与它们产生的图像关联起来？

它们了解它们所呈现出的图像背后的世界吗？

1 AI 不懂语言与图像的关联

在第一个问题上，答案是肯定的。区别只在于，在用 AI 生成图像这件事儿上，经过训练的人类艺术家能做得更好。

在第二个问题上，答案就不一定了。在某些语言输入上，这些系统能表现良好，比如下图是 DALL-E 2 生成的“骑着马的宇航员”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但在其他一些语言输入上，这些 AI 就表现欠佳、很容易被愚弄了。比如前段时间 Marcus 在推特上指出，这些系统在面对“骑着宇航员的马”时，难以生成对应的准确图像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

尽管深度学习的拥护者对此进行了激烈的反击，比如 AI 研究员 Joscha Bach 认为“Imagen 可能只是使用了错误的训练集”，机器学习教授 Luca Ambrogioni 反驳说，这正表明了“Imagen 已经具有一定程度的常识”，所以拒绝生成一些荒谬的东西。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

还有一位谷歌的科学家 Behnam Neyshabur 提出，如果“以正确的方式提问”，Imagen 就可以画出“骑着宇航员的马”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但是，Marcus 认为，问题的关键不在于系统能否生成图像，聪明的人总能找到办法让系统画出特定的图像，但这些系统并没有深刻理解语言与图像之间的关联，这才是关键。

2 不知道自行车轮子是啥？怎么能称是AGI？

系统对语言的理解还只是一方面，Marcus 指出，最重要的是，判断 DALL-E 等系统对 AGI 的贡献最终要取决于第三个问题：如果系统所能做的只是以一种偶然但令人惊叹的方式将许多句子转换为图像，它们可能会彻底改变人类艺术，但仍然不能真正与 AGI 相提并论，也根本代表不了 AGI。

让 Marcus 对这些系统理解世界的能力感到绝望的是最近的一些例子，比如平面设计师 Irina Blok 用 Imagen 生成的“带有很多孔的咖啡杯”图像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

正常人看了这张图都会觉得它违反常识，咖啡不可能不从孔里漏出来。类似的还有：

“带有方形轮子的自行车”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

“布满仙人掌刺的厕纸”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

说“有”容易说“无”难，谁能知道一个不存在的事物应当是什么样？这也是让 AI 绘制不可能事物的难题所在。

但又或许，系统只是“想”绘制一个超现实主义的图像呢，正如 DeepMind 研究教授 Michael Bronstein 所说的，他并不认为那是个糟糕的结果，换做是他，也会这样画。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那么如何最终解决这个问题呢？Gary Marcus 在最近同哲学家 Dave Chalmers 的一次交谈中获得了新的灵感。

为了了解系统对于部分和整体、以及功能的认识， Gary Marcus 提出了一项对系统性能是否正确有更清晰概念的任务，给出文本提示“Sketch a bicycle and label the parts that roll on the ground”（画出一辆自行车并标记出在地面上滚动的部分），以及“Sketch a ladder and label one of the parts you stand on”（画出一个梯子并标记出你站立的部分）。

这个测试的特别之处在于，并不直接给出“画出一辆自行车并标记出轮子”、“画出一个梯子并标记出踏板”这样的提示，而是让 AI 从“地面上滚动的部分”、“站立的部分”这样的描述中推理出对应的事物，这正是对 AI 理解世界能力的考验。

但 Marcus 的测试结果表明，Craiyon（以前称为 DALL-E mini）在这种事情上做得一塌糊涂，它并不能理解自行车的轮子和梯子的踏板是什么：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那么这是不是 DALL-E Mini 特有的问题呢？

Gary Marcus 发现并不是，在目前最火的文本生成图像系统 Stable Diffusion 中也出现了同样的结果。

比如，让 Stable Diffusion “画一个人，并把拿东西的部分变成紫色”（Sketch a person and make the parts that hold things purple），结果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

显然，Stable Diffusion 并不理解人的双手是什么。

而在接下来的九次尝试中，只有一次成功完成（在右上角），而且准确性还不高：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

下一个测试是，“画出一辆白色自行车，并将用脚推动的部分变成橙色”，得到图像结果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以它也不能理解什么是自行车的脚踏板。

而在画出“自行车的草图，并标记在地面上滚动部分”的测试中，其表现得也并没有很好：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

如果文本提示带有否定语，比如“画一辆没有轮子的白色自行车"，其结果如下：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

这表明系统并不理解否定的逻辑关系。

即便是“画一辆绿色轮子的白色自行车”这样简单的只关注部分与整体关系提示，而且也没有出现复杂的语法或功能等，其得到的结果仍存在问题：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

因此，Marcus 质问道，一个并不了解轮子是什么、或是它们的用途的系统，能称得上是人工智能的重大进步么？

今天，Gary Marcus 还针对这个问题发出了一个投票调查，他提出的问题是，“Dall-E 和 Stable Diffusion 等系统，对它们所描绘的世界到底了解有多少？”

其中，86.1% 的人认为系统对世界的理解并不多，只有 13.9% 的人认为这些系统理解世界的程度很高。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

对此，Stability.AI 的首席执行官 Emad Mostique 也回应称，我投的是“并不多”，并承认“它们只是拼图上的一小块。”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

来自科学机构 New Science 的 Alexey Guzey 也有与 Marcus 类似的发现，他让 DALL-E 画出一辆自行车，但结果只是将一堆自行车的元素堆在一起。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以他认为，并没有任何能真正理解自行车是什么以及自行车如何工作的模型，生成当前的 ML 模型几乎可以与人类媲美或取代人类是很荒谬的。

大家怎么看？

今天关于《Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

文本生成

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

上一篇: 谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

Meta最新图像生成工具火了，竟能把梦境画成现实！

下一篇: Meta最新图像生成工具火了，竟能把梦境画成现实！

查看更多

最新文章

科技周边 · 人工智能 | 3小时前 |

Claude Design提示词全解析：Anthropic核心指南

488浏览收藏
科技周边 · 人工智能 | 3小时前 | 腾讯AI

腾讯AI官网入口及官方链接地址

404浏览收藏
科技周边 · 人工智能 | 4小时前 | Hermes Agent HermesAgent

Hermes Agent无人值守配置全攻略

379浏览收藏
科技周边 · 人工智能 | 4小时前 | 千问AI

千问对话推荐系统怎么搭建？智能推荐商品内容

167浏览收藏
科技周边 · 人工智能 | 4小时前 |

AI海报设计技巧与视觉构成方法

394浏览收藏
科技周边 · 人工智能 | 4小时前 |

即梦AI照片碎片化飞散重组特效制作教程

185浏览收藏
科技周边 · 人工智能 | 4小时前 | DeepSeek

用DeepSeek打造智能客服机器人教程

139浏览收藏
科技周边 · 人工智能 | 4小时前 |

千问支持流式输出，可通过 API 设置 stream=True 参数实现。

414浏览收藏
科技周边 · 人工智能 | 4小时前 |

即梦AI制作渐变绘画过程的方法如下： 1. **选择合适的模型**：使用支持“绘画过程生成”的模型，如即梦AI的“绘图-动画”或“绘画过程模拟”功能。 2. **输入提示词**：在提示词中描述你想要的绘画过程，例如：“一个画家在空白画布上逐渐绘制出一幅风景画”。 3. **调整参数**：根据需要设置动画帧数、速度和细节程度，以控制绘画的流畅性和真实感。 4. **生成视频**：通过即梦AI

284浏览收藏
科技周边 · 人工智能 | 4小时前 |

lovemo批量加时间戳方法详解

206浏览收藏
科技周边 · 人工智能 | 5小时前 | 抖音AI

抖音AI照片生成动态卡点视频方法

341浏览收藏
科技周边 · 人工智能 | 5小时前 |

学术界严打AI代写，arXiv新规重磅上线

398浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4736次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

5089次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4967次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

6916次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

5331次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码