Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~
当谷歌Gemini 1.5,遇上抢了它头条的「罪魁祸首」Sora会怎么样?
这两天,拿到内测资格的AI圈大佬们,纷纷给广大网友来了一波在线测试。
这不,Gabor Cselle就让Gemini 1.5去分析了那个著名的樱花雪景视频。
对此,Gemini 1.5给出的评价是:
视频展示了一条被雪覆盖的日本街道,樱花盛开的场景,但一些明显的问题暗示着可能是由人工智能制作的。
首先,尽管雪下得非常大,樱花却依然绽放。通常,樱花在春季开放,那时天气温暖,不会有雪。
其次,雪以一种过于规律的方式落下,这与现实中雪的降落方式不符。
再者,尽管正下着大雪,视频中的人们却没有穿戴任何冬季服装。
总而言之,虽然视频的视觉效果令人赞叹,但这些问题表明它并非真实场景所拍。
不得不说,就分析视频AI痕迹的准确度来看,Gemini的回答非常切题,说明它的识别和理解能力确实非常出色。
无独有偶,The Rundown AI创始人Rowan Cheung,则测试了猫在丛林里漫步的视频。
对此,Gemini 1.5给出的评价是:
这段视频很有可能是由人工智能(AI)创造的,但要确定地说还是有些困难。
一些细节似乎表明这段视频是真实的,例如猫的动作自然流畅,光影效果也相当逼真。
然而,也有一些细节让人怀疑,比如猫的眼睛异常放大,毛皮的质感也过于完美无瑕。
最终,视频是真是假,还是要留给观众自己去判断。
确实Sora的视频生成已经到达了真假难辨的地步,而且Gemini的分析也基本到位,有理有据。
不过,需要注意的是,在这两位大佬的Prompt里,要么明示了视频就是AI生成的,要么暗示了两者可能有所联系。
1,000,000 token上下文能干啥?
众所周知,模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。
如今,谷歌成功把这个领域「卷」到了100万token(极限为1000万token),创下了最长上下文窗口的纪录。
在这个基础之上,很多之前难以想象的应用都成为了现实。
比如,一口气处理1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词的文本等等。
于是,一大波千奇百怪的实测就扑面而来:
比如,前文提到的Rowan Cheung,就用了很多长视频来对Gemini 1.5的理解能力进行了测试。
首先他上传了今年整个NBA扣篮大赛,问哪一个扣篮得分最高。
Gemini 1.5非常能够从很长的视频中找到了那个获得50分满分的扣篮,并清除地描述了扣篮的细节!
Mac McClung的最后一记扣篮获得了当晚的最高分——50 分满分。他跳过两人,将球轻敲篮板后板,然后用右手完成扣篮。
然后他又让Gemini 1.5理解并比较《星际穿越》和《星际探索》的完整电影脚本。
让Gemini 1.5 去理解比较两部电影的完整文字内容,来帮助他决定应该看哪部电影。
Gemini 1.5最后输出到:
《星际探索》:归根结底,这是一个关于个人成长和人与人之间联系的重要性的故事,表明即使面对宇宙的冷漠,找到自身的意义和与他人的联系也是至关重要的。
《星际穿越》:更加乐观和充满希望,强调了人类智慧的力量,以及面对看似难以克服的挑战时坚持不懈的重要性。
接下来该看哪部电影取决于你的个人喜好:
如果您正在寻找一个更加内省、以人物为驱动力、注重情感主题的故事,《星际探索》可能是一个不错的选择。
如果你更喜欢史诗般的动作冒险,关注人类的生存,那么《星际穿越》可能更有吸引力。
两部电影都为太空探索和人类经历提供了独特而发人深省的视角。
然后,他又让Gemini将一段英语翻译成一个全世界不超过2000人使用的语言(萨特兰语)。
Gemini 1.5经过推理之后将英语小册子的所有内容很快翻译成萨特兰语。
这个过程确实碉堡了。
然后他再让Gemini查找、理解长论文中的一个图标的含义。
Gemini从DeepMind的Gemini 1.5 Pro论文中提取「表 8」并解释了这个图表的含义。
表8的主要的内容是:
与Gemini 1.0 Pro相比,Gemini 1.5 Pro在所有核心文本功能方面都有显著改进。这表明该模型的能力有了明显的提升。
Gemini 1.5 Pro在许多基准测试中的表现与Gemini 1.0 Ultra相当,甚至超过了后者,尽管所需的训练计算量更少。这凸显了1.5 Pro模型效率的提高。
Gemini 1.5 Pro在不同的任务和语言中都表现出很强的性能,这表明它具有很好的泛化能力。
总之,表8提供的证据表明,Gemini 1.5 Pro不仅在长文本理解方面表现出色,而且还保持甚至改进了其前代产品的核心文本功能。这使它成为一个功能强大、用途广泛的模型,适用于各种基于文本的任务。
最后,他让Gemini理解整个《星际穿越》的剧本内容,再把剧本中最高潮的部分的台词提取出来。
Gemini 1.5输出了《星际穿越》文字记录中最鼓舞人心的3句台词。
1. 「人类诞生于地球,但我们的命运远不止于此。」—— Cooper
这句话深刻地表达了人类探索未知、超越现状的不屈不挠的精神。它提醒我们,我们的潜力不受当前所处环境的限制,我们完全有能力克服挑战,追求更高的目标。
2. 「爱是唯一能跨越时间和空间,触及我们心灵的力量。」—— Brand
这句话揭示了爱的强大能力,它能够跨越遥远的距离,甚至是时间的界限,将我们紧紧相连。它暗示,爱是宇宙中的一股根本力量,能在逆境中为我们指明方向,带给我们希望。
3. 「曾经,我们仰望星空,梦想着自己在浩瀚宇宙中的位置。如今,我们却沉溺于眼前的琐事,忘记了自己的远大理想。」—— Cooper
这句话是对好奇心、追求和雄心壮志的重要性的深情提醒。它对比了过去人类满怀希望地探索星辰的时代,与如今忙于应对日常挑战、失去对未来的憧憬的现状。它激励我们重新寻找那份对未知的好奇和对更美好未来的追求。
Gemini 1.5性能极限测试
随后,Rowan Cheung又对Gemini 1.5进行了一些更加极限的测试:
他让Gemini读取了整部《哈利·波特与魔法石》(共741,028个Token)。
Prompt:「请按照时间顺序列出书中最重要的50个(或100个)思想或段落,并对它们的重要性进行1到10的评分。」
完成这个任务耗时4分钟。
他又输入了梅西在对阵赫塔菲比赛中的经典单刀进球视频。
Prompt:「这个进球为什么如此著名?」
虽然没有解释这个进球为什么那么著名,但它成功识别出了梅西,但是把赫塔菲的球员识别成了皇马球员。
这张图片之所以出名,是因为它捕捉到了有史以来最伟大的足球运动员之一梅西在与巴塞罗那最大的对手之一皇家马德里比赛时的场景。梅西的球技和运动能力在这幅图片上得到了充分展示,视觉效果极佳。
他还进行了难度很高的数学和逻辑推理测试。
Prompt:「当一个点P在垂直线上移动时,该点在时间t(t ≥ 0)的速度v(t)与加速度a(t)满足以下条件:(a) 当0 ≤ t ≤ 2时,v(t) = 2t^3 - 8t。(b) 当t ≥ 2时,a(t) = 6t + 4。请计算点P从时间t = 0到t = 3移动的总距离。」
不过,大佬表示,自己并不确定这里给出的答案是否正确,但据网友评论的说法,这个答案是错误的。
他又让Gemini 1.5造10个句子,每个句子都以「Apple」结尾。
这个任务是检验聊天机器人能力的一个很常用的方法。
Prompt:「请编写10个句尾为『apple』的句子。」
最后,Gemini 1.5完全没能完成这项挑战。
于是他让GPT-4也来跑了一下这个问题,结果GPT-4也没给出正确的结果。
他又把《炼金术士》这本书的PDF全文输入到了Gemini 1.5中,目的是获取书中主人公的形象描述。
接着,他又把这个描述在DALL·E 3中生成了图片。
Prompt:「读完整本书后,帮我构思一个基于主角形象的描述,我想把它用在AI图像生成器里。」
1000万极限海底捞针几乎全绿
最后,我们来看看Gemini 1.5 Pro在多模态海底捞针测试中的成绩。
对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理100万token的文本时达到99.7%的检索完整性。
甚至在处理高达1000万token的文本时,检索准确性仍然高达99.2%。
在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。
在视频处理方面,Gemini 1.5 Pro能够在大约3小时的视频内容中,100%成功检索到各种隐藏的视觉元素。
此外,谷歌研究人员还开发了一个更通用的版本的「大海捞针」测试。
在这个测试中,模型需要在一定的文本范围内检索到100个不同的特定信息片段。
在这个测试中,Gemini 1.5 Pro在较短的文本长度上的性能超过了GPT-4-Turbo,并且在整个100万token的范围内保持了相对稳定的表现
与之对比鲜明的是,GPT-4 Turbo的性能则飞速下降,且无法处理超过128,000 token的文本,表现惨烈。
今天关于《Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于模型,数据的内容请关注golang学习网公众号!

- 上一篇
- Redis缓存更新策略是什么

- 下一篇
- Java函数对サーバーless 架构有何影响?
-
- 科技周边 · 人工智能 | 4小时前 | 亚马逊
- 亚马逊微软数据中心租赁进度放缓
- 192浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 特斯拉股价开盘跌5.6%,Q1交付33万辆同比降13%
- 397浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 24次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 40次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 38次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 50次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 41次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览