当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 商汤大模型的「5o」交互,普通人如何和 AI 过一天?

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

2025-01-13 16:51:42 0浏览 收藏

在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《商汤大模型的「5o」交互,普通人如何和 AI 过一天?》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!

「PHP中文网(公众号:PHP中文网)」在刚刚结束的堪称「AI 界春晚」的世界人工智能大会(WAIC 2024)上,「中国版GPT-4o」亮相,它是来自商汤科技发布的“日日新5o”——国内首个「流式交互」多模态大模型。

在商汤的演示下,日日新5o拥有像人一样的实时视觉能力,可以跟人进行流畅的视频交互——能听、能说、能看、无延时,它可以通过摄像头+语音实现和用户的实时交互,并获知用户所在的真实场景下的各种状态信息,打破了与AI交互的次元壁,实现了与AI的“视频通话”,已经具备真人聊天般的交互体验。

两个月前OpenAI推出了GPT-4o,以突破性的智能交互能力,彻底颠覆了我们对AI语音助手的认知,颠覆了过去的人机交互,给业界带来又一次震撼。

震撼之外,中国大模型界对GPT-4o的认知似乎并不如GPT-4那么统一,有人认为「在实现AGI的路上,GPT-4o并不重要」、有人评价「在技术突破上,GPT-4o没那么惊艳」;有人认为GPT-4o的发布是 AI 2.0 时代的标志性事件,会催生全新的应用平台和商业模式。

带来的共识是,多模态可能引领新的交互模式和产品创新,多模态大模型开始成为国内大模型竞争的下一个焦点。

然而,在国内GPT-4o似乎并未成为引领多模态竞争的产品形态时,两个月后商汤率先推出了「中国版GPT-4o」日日新5o大模型,商汤用行动力证明了对GPT-4o的判断。

正如商汤 CEO徐立在WAIC 2024上所讲的:「行业要变化,交互模式一定是先行的」,解释了商汤为什么要做「中国版GPT-4o」,首创流式交互大模型。

1 大模型可以是每个人的贴身AI全能助手

如果你拥有一个能看(现实世界)、能听(读懂指令)、能说(回答问题)的贴身 AI 助手,将会是一种什么体验?

这位贴身助手,拥有丰富的多领域知识,包括生活、学习、工作各方面的知识,关键还能看懂现实世界——摄像头就是它获取现实世界影像的眼睛,而视觉触及到的信息,它能立马进行分析、总结,通过实时对话,像面对面聊天一样,立即告诉你问题的答案,没有延迟和拒绝。

早上起来,准备出门,你想知道现在外面的天气应该做哪些准备,日日新5o可以准确地描述出外面的天气状况,并给出外出准备的建议:

走到一处很美的地方,你想拍照,但是不知道用什么姿势拍出来好看,日日新5o开始充当一个摄影助手,它会指导你如何根据当前景色摆姿势动作、注意光线等等技巧:

晚饭是一顿烧烤,大家一起搭起炭火炉、燃起炭火准备烧烤,日日新5o能准确地知道视频里的人们正在干嘛,而且还能告诉详细的户外烧烤注意事项:

你想知道每种食材分别要如何烧烤才好吃,此时日日新5o化身为一名拥有多年烹饪经验的烧烤大师,它能分辨出每种食材、要如何烤:

回到酒店,你看到一袋咖啡,询问日日新5o后它能识别出这是咖啡粉而不是速溶咖啡,并告诉你咖啡粉对应的冲泡步骤,宛如一个咖啡师:

日日新5o不仅拥有大量、多领域的生活方面的知识,在日常生活场景中分别充当了发型助手、摄影师、烧烤大师、咖啡师……在职场工作环境中,也是一把好手,比如能迅速地总结出这本书该页讲了什么知识。比人的反应、分析、总结速度快多了:

面对一张手写的字条或诗句,它也能立马回答出它的意思和出处:

还能根据前三个字,准确预测出整个成语是什么:

从以上可以看到,日日新5o具备非常丰富的多领域知识,相比其他AI助手,它能看、能听、能读,首创的实时流式交互方式,使其具备真人般的交流对话;能精准地分析、辨别、总结出所「看到」的环境信息,在我们的生活、学习、工作中可以扮演多种助手角色,完全可以充当一款 AI 全能助手。

2 重塑交互的意义

日日新5o能作为一款表现出色的 AI 全能助手,除了展示出了它对标GPT-4o的各种能力:能看到那个现实世界,包括人、物、文字等符号;能听懂用户的话语,并根据其中的指令对现实世界进行识别,再反馈给用户;能看书识字,概括总结所讲的内容……

最大的变革就是交互模式的变化:国内首个流式交互多模态大模型。商汤将流式交互融入到大模型中,给用户带来真人般的交流体验,让日日新5o系统更像人。

我们知道,在人工智能发展中,ChatGPT之所一炮而红,便是因为它开始展露出人类所具备的自主学习、分析、总结能力以及逻辑能力,而让大模型像人一样交流,正如引言所说,交互模式先行似乎并不是业界共识。

而商汤的日日新5o的发布,正是符合商汤对AI 2.0时代的判断,正如CEO徐立所说:行业要变化,交互模式一定是先行的。

在徐立看来,变化是指能定义AI 2.0时代的「超级时刻」,正如iPhone时刻定义了移动互联网的变化。而超级时刻需要一个超级应用,即便是像ChatGPT、Sora都还没有到超级时刻,是因为它们没有真正走进到一个行业的垂直应用中、引起广泛变化。

走向应用,商汤认为需要有几个核心的重点突破:

第一个就是实时的交互性能带来流畅的用户体验,这是推动超级时刻以及应用爆发的一个核心。

第二是构建高阶思维逻辑的合成数据,来提升模型的智力。

最后,不管是文本、图像、视频,如果对它没有可控性,那么它们作为一个工具,本身带来的效能提升就非常有限。

大模型本质上是做记忆的事情,记住世界的知识,就能回答的更准确,在徐立看来,它仅有的一点智力来自于对知识背后的高阶的思维逻辑的记忆,所以,在垂直行业里面怎么构造高阶思维逻辑的合成数据,往往是制胜的关键,并且是差异化的关键,也是中国人工智能之路的关键。

商汤最新发布的日日新5.5基座模型,便用了大量的合成、高阶思维链的数据,把模型能力平均提升了30%。

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

商汤CEO徐立认为,如果要推动人工智能超级时刻的到来,需要大模型可以展现出卓越的深度思考的能力。那么合成的人工数据,特别是高阶思维的数据往往是非常重要的。所以越是有应用的场景,才能形成更好的高质量的数据的一些核心。

过去垂直领域是依赖人去构建更加高级的思维链数据,但是商汤认为,往前一步,不应该依赖人,而是应该通过跟真实世界的交互形成执行数据,去做推理。

因此,基于基座模型日日新5.5,商汤研发了日日新5o流式交互多模态大模型,在摄像头不停地移动过程中、跟真实世界互动获取更多新的信息,去进行推理、再得出反馈。

日日新5o的各种功能离不开基座模型日日新5.5的支撑。今年4月发布的日日新5.0是国内首个对标GPT-4 Turbo的大模型,经过两个多月技术迭代,日日新5.5实现了多项功能升级,在数学推理、英文能力、指令跟随等能力上明显增强,交互效果和多项核心指标可比肩GPT-4o。

徐立认为,如果能把这种流式交互多模态大模型置入眼镜、手机、电脑等端侧设备,可能会推动一些应用的爆发。


商汤大模型的「5o」交互,普通人如何和 AI 过一天?

本篇关于《商汤大模型的「5o」交互,普通人如何和 AI 过一天?》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

如何在 Laravel 中生成发票 PDF?如何在 Laravel 中生成发票 PDF?
上一篇
如何在 Laravel 中生成发票 PDF?
国家发展改革委:鼓励以工业园区、产业集群为载体规模化实施设备更新
下一篇
国家发展改革委:鼓励以工业园区、产业集群为载体规模化实施设备更新
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    7次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    7次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    6次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    13次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    14次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码