当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 当GPT-4学会看图文,一场生产力革命已势不可挡

当GPT-4学会看图文,一场生产力革命已势不可挡

来源:51CTO.COM 2023-05-03 14:25:51 0浏览 收藏

IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《当GPT-4学会看图文,一场生产力革命已势不可挡》,聊聊,我们一起来看看吧!

「太卷了!」

在经历了 GPT-4 和微软 ​Microsoft 365 Copilot ​的连续轰炸后,相信很多人都有这样的感想。

与 GPT-3.5 相比,GPT-4 在很多方面都实现了大幅提升,比如在模拟律师考试中,它从原来的倒数 10% 进化到了正数 10%。当然,普通人对于这些专业考试可能没什么概念。但如果给你看一张图,你就明白它的提升有多么恐怖了:

图片

图源:清华大学计算机系教授唐杰微博。链接:https://m.weibo.cn/detail/4880331053992765

这是一道物理题,GPT-4 被要求根据图文逐步解题,这是 GPT-3.5(此处指升级之前的 ChatGPT 所依赖的模型)所不具备的能力。一方面,GPT-3.5 只被训练用来理解文字,题中的图它是看不懂的。另一方面,GPT-3.5 的解题能力也很薄弱,鸡兔同笼都能把它难倒。但这一次,两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候,微软又放出了一个重磅炸弹:GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力,Microsoft 365 Copilot 不仅可以帮你写各种文档,还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

图片

从技术亮相到产品落地,OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间,一场新的生产力革命已经到来。

由于变革来得太快,学界和业界都或多或少地处于一种迷茫和「FOMO(fear of missing out,怕错过)」的状态。当前,所有人都想知道一个答案:在这场浪潮中,我们能做些什么?有哪些机会可以抓住?而从微软发布的 demo 中,我们可以找到一个清晰的突破口:图文智能处理

在现实场景中,各行各业的很多工作都和图文处理有关系,比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此,这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文​对这种影响做了预测:约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响,而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见,这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上,哪些研究工作或工程努力是值得探索的呢?在近期中国图象图形学学会(CSIG)主办,合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中,来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨,或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文,从做好底层视觉开始

前面提到,GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题,OpenAI 的技术报告里还举了其他例子,比如让 GPT-4 读论文图:

图片

不过,要想让这样的技术广泛落地,可能还有很多基础工作要做,底层视觉便是其中之一。

底层视觉的特征非常明显:输入是图像,输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用,如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好,很多 high-level 视觉系统(如检测、识别、理解)无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解?我们可以看一些例子:

图片

和 OpenAI、微软 demo 中所展示的理想情况不同,现实世界的图文总是以充满挑战的形式存在,比如存在形变、阴影、摩尔纹,这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。

为此,他们将这项任务分成了几个模块,包括感兴趣区域(RoI)的提取、形变矫正、图像恢复(如去除阴影、摩尔纹)、质量增强(如增强锐化、清晰度)等。

这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索,这些模块已经实现了相当不错的效果,相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。

从字到表,再到篇章,一步步读懂图文

图像处理好之后,接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作,甚至可能以「字」为单位。

在很多现实场景中,字不一定会以规范的印刷体的形式出现,这就给字的识别带来了挑战。

图片

以教育场景为例。假设你是一位老师,你肯定想让 AI 直接帮你把学生作业全部批改好,同时把学生对各部分知识的掌握情况汇总一下,最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。 

具体来说,他们创建了一套基于部首的汉字识别、生成与评测系统,因为与整字建模相比,部首的组合要少得多。其中,识别与生成是联合优化的,这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面,而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。

图片

文字之外,表格的识别与处理其实也是一大难点,因为你不仅要识别里面的内容,还要理清这些内容之间的结构关系,而且有些表可能连线框都没有。为此,杜俊团队设计了一种「先分割,后合并」的方法,即先把表格图像拆分成一系列基础网格,然后再通过合并的方式做进一步纠正。

图片

杜俊团队「先分割,后合并」的表格识别方法。

当然,所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中,模型所面临的文档大多不止一页(比如一篇论文)。在这一方向,杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过,这些方法在多版式的场景下还存在局限性。

图片

大模型、多模态、世界模型…… 未来路在何方?

聊到篇章级别的图文处理与理解,其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后,我们也在想能不能在这些方面做些事情」,杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。

一直以来,GPT 系列模型的目标都是努力提高通用性,最终实现通用人工智能(AGI)。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型,OpenAI 给出了一些借鉴,也留下了不少谜团和未解决的问题。

首先,GPT-4 的成功表明,大模型 + 多模态的做法是可行的。但大模型要研究哪些问题,多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。

对于第一个问题,复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息,我们知道 ChatGPT 离不开几项关键技术,包括情景学习(in-context learning)、思维链(chain of thought)和指令学习(learn from instructions)等。邱锡鹏在分享中指出,这几个方向都还有很多待探讨的问题,比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外,他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。

图片

对于第二个问题,厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为,语言和视觉存在着天然的联系,二者的联合学习已经是大势所趋。但面对这波浪潮,任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始,尝试说服研究人员将算力整合起来,形成一个网络去做多模态大模型。其实,在前段时间的一个活动上,专注于 AI for Science 的鄂维南​院士也发表了类似看法,希望各界「敢于在原始创新方向上集中资源」。

不过,GPT-4 所走的路就一定会通向通用人工智能吗?对此,有些研究者是存疑的,图灵奖得主 Yann LeCun 便是其中之一。他认为,当前的这些大模型对于数据、算力的需求大得惊人,但学习效率却很低(比如自动驾驶汽车)。因此,他创立了一套名为「世界模型」(即世界如何运作的内部模型)的理论,认为学习世界模型(可以理解为为真实世界跑个模拟)可能是实现 AGI 的关键。在活动现场,上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说,他的团队着眼于视觉直觉的世界模型(因为视觉直觉信息量大),试图把视觉、直觉以及对时间、空间的感知建模好。最后,他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养,然后变成蝴蝶。人们已经提取了数十亿条理解的线索,GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天,深度学习之父 Geoffrey Hinton 发了这样一条推文。

图片

目前,还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是,这还不是一只完美的蝴蝶,整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

文中关于图像,技术的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《当GPT-4学会看图文,一场生产力革命已势不可挡》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
ChatGPTt助力AI办公,让我们迈入了智能化办公时代ChatGPTt助力AI办公,让我们迈入了智能化办公时代
上一篇
ChatGPTt助力AI办公,让我们迈入了智能化办公时代
人工智能和云技术使失业保险更容易领取
下一篇
人工智能和云技术使失业保险更容易领取
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    40次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码